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中 国 版 本 图 书馆 CIP 数 据 核 字 (2012) 第 095358 号 


内 容 提 要 
本 书 是 HTTP 及 其 相关 核心 Web 技术 方面 的 权威 著作 ， 主 要 介绍 了 Web 应 用 程序 是 如 何 
工作 的 ， 核 心 的 因特网 协议 如 何 与 架构 构建 块 交互 ， 如 何 正 确实 现 因特网 客户 端 和 服务 器 等 。 
本 书 适合 所 有 想 了 解 HTTP 和 Web 底层 结构 的 人 阅读 。 
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HTTP (Hypertext Transfer Protocol， 超 文本 传输 协议 ”) 是 在 万 维 网 上 进行 通信 时 
所 使 用 的 协议 方案 。HTTP 有 很 多 应 用 ,但 最 车 名 的 是 用 于 Web 浏览 器 和 Web JR 
务 器 之 间 的 双 工 通信 。 


HTTP 起 初 是 一 个 简单 的 协议 ， 因 此 你 可 能 会 认为 关于 这 个 协议 没有 太 多 好 说 的 。 
但 现在 ， 你 手 上 拿 着 的 却 是 一 本 将 近 两 斤 重 的 书 。 如 果 你 想 知 道 我 们 怎么 会 写 出 一 
本 700 多 页 的 关于 HTTP 的 书 ， 就 去 看 看 目录 吧 。 本 书 不 仅仅 是 一 本 HTTP 首部 参 
考 手 册 ， 它 还 是 一 本 名 副 其 实 的 Web 架构 “圣经 ”。 


本 书 中 ， 我 们 会 将 HTTP 中 一 些 互相 关联 且 常 被 误解 的 规则 梳理 清楚 ， 并 编写 了 一 系列 
基于 各 种 主题 的 章节 介绍 HTTP 各 方面 的 特性 。 纵 观 全 书 ， 我们 对 HTTP“ 为 什么 ”这 
样 做 进行 了 详细 的 解释 ， 而 不 仅仅 停留 在 它 是 “怎么 做 ”的 。 而 且 ， 为 了 节省 大 家 寻找 
参考 文献 的 时 间 ， 我 们 还 介绍 了 很 多 HTTP 应 用 程序 正常 工作 所 必需 且 重 要 的 非 HTTP 
技术 。 在 条 理 清晰 的 附录 中 ， 可 以 找到 按照 字母 排序 的 首部 参考 (这 些 首部 构成 了 最 常 
见 的 HTTP 文本 的 基础 )。 我 们 希望 这 种 概念 性 的 设计 有 助 于 读者 更 好 地 使 用 HTTP。 


本 书 是 为 所 有 希望 理解 HTTP 和 Web 底层 结构 的 人 编写 的 。 软 硬件 工程 师 也 可 以 将 
本 书 作为 HTTP 及 相关 Web 技术 参考 书 使 用 。 系 统 架构 师 和 网 络 管理 员 可 以 通过 本 
书 更 好 地 了 解 如 何 设计 、 实 现 并 管理 复杂 的 网 络 架构 。 性 能 工程 师 和 分 析 人 员 可 以 
从 缓存 和 性 能 优化 的 相关 章节 中 获 益 。 市 场 营 销 和 咨询 专家 还 可 以 通过 概念 介绍 更 
好 地 理解 Web 技术 的 前 景 。 
































O HTTP 译 为 “ 超 文本 传输 协议 "， 其 中 “transfer” 使 用 了 “传输 ”的 含义 ， 但 依据 HTTP 制定 者 之 一 Roy 
Fielding 博士 的 论文 ，“transfer” 表 示 的 是 “(状态 的 ) 转移 "， 而 不 是 “传输 ”。 怎 样 翻 译 才 更 符合 HTTP 
的 原意 ， 其 讨论 可 参见 图 灵 社 区 的 文章 ， 地 址 是 ituring.com.cn/article/details/1817。 











本 书 答 清 了 一 些 常 见 的 误解 ， 推 荐 了 “各 种 业内 诀窍 ， 提 供 了 便捷 的 参考 资料 ， 并 
且 用 通俗 易 懂 的 语言 阐述 了 枯燥 且 令 人 费解 的 标准 规范 ， 还 详细 探讨 了 Web 正常 工 
作 所 必需 且 互 相关 联 的 技术 。 


本 书 创作 历时 良 入， 是 由 很 多 热 囊 于 因特网 技术 的 人 共同 完成 的 ， 希望 它 能 对 你 有 
所 帮助 。 
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运行 实例 : Joe 的 五 金 商店 

本 书 的 很 多 章节 都 涉及 了 一 个 假想 的 在 线 五 金 与 家 装 商 店 示例 ， 通 过 这 个 “Joe 的 
五 金 商店 ”来 说 明 一 些 技术 概念 。 我 们 为 这 个 商店 构建 了 一 个 真实 的 Web 站 点 
(http://www.joes-hardware.com)， 以 便 大 家 能 够 测试 书 中 的 部 分 实例 。 只 要 本 书 仍 
在 销售 ， 我 们 就 会 一 直 维 护 好 这 个 Web 站 点 。 


本 书 内 容 


本 书包 含 21 章 ， 分 为 5 个 逻辑 部 分 (每 部 分 都 是 一 个 技术 专题 )， 以 及 8 个 很 有 用 
的 附录 ， 这 些 附 录 包 含 了 参考 资料 ， 以 及 对 相关 技术 的 介绍 。 














第 一 部 分 HTTP: Web 的 基础 
第 二 部 分 HTTP 结构 

第 三 部 分 ”识别 、 认 证 与 安全 

第 四 部 分 ” 实体、 编码 和 国际 化 
第 五 部 分 ”内容 发 布 与 分 发 

第 六 部 分 ”附录 


第 一 部 分 用 4 章 的 篇 幅 描述 了 Web 的 基础 构件 与 HTTP 的 核心 技术 。 


° 第 1 童 简 要 介绍 了 人 HTTP。 

° 第 2 章 详细 阐述 了 统一 资源 定位 符 (Uniform Resource Locator, URL) 的 格式 ， 
以 及 URL 在 因特网 上 命名 的 各 种 类 型 的 资源 ， 还 介绍 了 统一 资源 名 (Uniform 
Resource Name, URN) 的 演变 过 程 。 

。 第 3 章 详 细 介 绍 了 HTTP 报 文 是 如 何 传送 Web 内 容 的 。 

。 第 4 章 解释 了 HTTP 连接 管理 过 程 中 一 些 经 常会 引起 误解 且 少 有 文档 说 明 的 规则 和 
行为 。 

第 二 部 分 重点 介绍 了 Web 系统 的 结构 构造 块 : HTTP 服务 器 、 代 理 、 缓 存 、 网 关 以 

及 机 器 人 应 用 程序 。( 当 然 ，Web 浏览 器 也 是 一 种 构造 块 ， 但 在 本 书 的 第 一 部 分 已 

经 对 其 进行 过 很 详细 的 介绍 了 。) 第 二 部 分 包含 以 下 6 章 。 
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。 第 5 章 简 要 介绍 了 Web 服务 器 结构 。 

。 第 6 章 深 入 研究 了 HTTP 代理 服务 器 ，HTTP 代理 服务 器 是 作为 HTTP 服务 与 控制 
平台 使 用 的 中 间 服 务 器 。 

。 第 7 章 深入 研究 了 Web 缓存 的 问题 。 缓 存 是 通过 保存 常用 文档 的 本 地 副本 来 提高 
性 能 、 减 少 流量 的 设备 。 

。 第 8 章 探 讨 了 网 关 和 应 用 服务 器 的 概念 ， 通 过 它们 ，HTTP 就 可 以 与 使 用 不 同 协 议 
(包括 SSL 加 密 协议 ) 的 软件 进行 通信 了 。 

° 第 9 章 介绍 了 Web 上 的 各 种 客户 端 类 型 ， 包 括 无 处 不 在 的 浏览 器 、 机 器 人 和 网 络 
蜘蛛 以 及 搜索 引擎 。 

。 第 10 章 讲述 了 仍 在 研究 之 中 的 HTTP 协议 : HTTP-NG 协议 。 


第 三 部 分 提供 了 一 套用 于 追踪 身份 、 增 强 安全 性 以 及 控制 内 容 访问 的 技术 和 技巧 。 

包含 下 列 4 章 。 

。 第 11 章 讨论 了 一 些 识别 用 户 的 技术 ， 以 便 向 用 户 提 供 私 人 化 的 内 容 服务 。 

° 第 12 章 重点 介绍 了 一 些 验证 用 户 身 份 的 基本 方式 。 这 一 章 还 对 HTTP 认证 机 制 与 
数据 库 的 接口 问题 进行 了 研究 。 

。 第 13 章 详 述 了 摘要 认证 ， 它 是 对 HTTP 的 建议 性 综合 增强 措施 ， 可 以 大 幅度 提高 
其 安全 性 。 

° 第 14 章 说 明了 因特网 的 密码 体系 、 数 字 证 书 以 及 SSL, 











第 四 部 分 涵盖 HTTP 报 文 主体 和 Web 标准 ， 前 者 包含 实际 内 容 ， 后 者 描述 并 处 理 主 

体内 容 。 第 四 部 分 包含 以 下 3 章 。 

。 第 15 ENAT HTTP 内 容 的 结构 。 

。 第 16 章 探讨 了 一 些 Web 标准 ， 通 过 这 些 标准 ， 全 球 范围 内 的 用 户 都 可 以 交换 以 不 
同 语言 和 字符 集 表示 的 内 容 。 

。 第 17 章 解释 了 一 些 用 于 协商 可 接受 内 容 的 机 制 。 


第 五 部 分 介绍 了 发 布 和 传播 Web 内 容 的 技巧 。 包 括 以 下 4 章 。 


。 第 18 章 讨论 了 在 现代 的 网 站 托管 环境 中 布 署 服务 器 的 方式 以 及 HTTP 对 虚拟 网 站 
托管 的 支持 。 

。 第 19 章 探讨 了 一 些 创建 Web 内 容 ， 并 将 其 装载 到 Web 服务 器 中 去 的 技术 。 

。 第 20 章 介绍 了 能 够 将 输入 Web 流量 分 散 到 一 组 服务 器 上 去 的 一 些 工 具 和 技术 。 

。 第 21 章 介绍 了 一 些 日 志 格式 和 常见 问题 。 


第 六 部 分 是 一 些 很 有 用 的 参考 附录 ， 以 及 相关 技术 的 教程 。 
° 附录 和 A 详 述 了 统一 资源 描述 符 (Uniform Resource Identifier, URI) 方 案 所 支持 的 协议 。 























-> | 


RU 3 


Tl 


附录 B FIH T HTTP 的 响应 代码 ， 方 便 使 用 。 
附录 C 提供 了 HTTP 首部 字段 的 参考 列表 。 
附录 D 列 出 了 大 量 的 MIME 类 型 ， 解 释 了 MIME 类 型 的 注册 方式 。 
° HER ETZ f HTTP 认证 中 使 用 的 Base-64 编码 。 
附录 下 详 述 了 如 何 实现 HTTP 中 的 各 种 认证 方案 。 
附录 G 定义 了 HTTP 首部 的 语言 标签 值 。 
附录 互 列 出 了 用 以 支持 国际 化 HTTP 的 字符 编码 。 


每 章 都 包含 很 多 实例 ， 以 及 到 其 他 相关 的 参考 资料 的 链接 。 


排版 约定 


本 书 使 用 了 下 列 排版 约定 。 














用 于 URL. C 函数 、 命 令 名 、MIME 类 型 、 新 术语 的 定义 以 及 重点 内 容 。 


用 于 计算 机 的 输出 、 代 码 以 及 所 有 文字 文本 。 
。 加 粗 等 宽 字 体 


用 于 用 户 的 输入 。 
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第 一 部 分 
HTTP: Web 的 基础 





本 部 分 主要 概述 HTTP 协议 。 接 下 来 的 4 章 介 绍 了 Web 的 基础 构件 以 及 HTTP 的 核 

心 技术 。 

° 第 1 章 简要 概述 HTTP, 

。 第 2 章 详细 介绍 了 URL 的 格式 ， 以 及 URL 在 因特网 上 命名 的 各 种 类 型 的 资源 ， 
并 对 其 向 URN 的 发 展 作 了 概要 介绍 。 

。 第 3 章 详细 说 明了 用 来 传输 Web 内 容 的 HTTP 报 文 。 

。 第 4 章 讨论 了 一 些 通过 HTTP 管理 TCP 连接 时 常 被 误解 且 很 少 有 文档 说 明 的 规 
则 和 行为 。 





第 1 章 





HTTP 概 述 














Web 浏览 器 、 服 务 器 和 相关 的 Web 应 用 程序 都 是 通过 HTTP 相互 通信 的 。HTTP 是 
现代 全 球 因 特 网 中 使 用 的 公共 语言 。 











本 章 是 对 HTTP 的 简要 介绍 。 在 本 章 中 可 以 看 到 Web 应 用 程序 是 如 何 使 用 HTTP 进 
行 通信 的 ， 这 样 就 可 以 对 HTTP 如 何 完成 其 工作 有 个 大 概 印 象 。 我 们 将 特别 介绍 以 
下 方面 的 内 容 : 

° Web 客户 端 与 服务 器 是 如 何 通信 的 ， 

° (表示 Web 内 容 的 ) 资源 来 自 何方 ; 

° Web 事务 是 怎样 工作 的 ， 

HTTP 通信 所 使 用 的 报 文 格式 ; 

。 底层 TCP 网 络 传输 ， 

不 同 的 HTTP 协议 变 体 ，; 

。 因特网 上 安装 的 大 量 HTTP 架构 组 件 中 的 一 部 分 。 























我 们 有 很 多 话题 要 讨论 ， 就 此 开始 HTTP 之 旅 吧 。 


1.1 HTTP 一 一 因特网 的 多 媒体 信使 


每 天 ， 都 有 数 以 亿 万 计 的 JPEG 图 片 、HTML 页 面 、 文 本 文件 、MPEG 电影 、WAV 
音频 文件 、Java 小 程序 和 其 他 资源 在 因特网 上 游 闵 。HTTP 可 以 从 遍布 全 世界 的 
Web 服务 器 上 将 这 些 信息 块 迅 速 、 便 捷 、 可 靠 地 搬移 到 人 们 桌面 上 的 Web 浏览 器 
上 去 。 


HTTP 使 用 的 是 可 靠 的 数据 传输 协议 ， 因 此 即使 数据 来 自 地 球 的 男 一 端 ， 它 也 能 够 
确保 数据 在 传输 的 过 程 中 不 会 被 损坏 或 产生 混乱 。 这 样 ， 用 户 在 访问 信息 时 就 不 用 
担心 其 完整 性 了 ， 因 此 对 用 户 来 说 ， 这 是 件 好 事 。 而 对 因特网 应 用 程序 开发 人 员 来 
说 也 同样 如 此 ， 因 为 这 样 就 无 需 担 心 HTTP 通信 会 在 传输 过 程 中 被 破坏 、 复 制 或 产 
生 畸 变 了 。 开 发 人 员 可 以 专注 于 应 用 程序 特有 细 市 的 编写 ， 而 不 用 考虑 因特网 中 存 



































在 的 一 些 缺 陷 和 问题 。 
下 面 ， 就 让 我 们 来 近 距 离 地 观察 一 下 HTTP 是 如 何 传输 Web 流量 的 。 


1.2 Web 客户 端 和 服务 器 


Web 内 容 都 是 存储 在 Web 服务 器 上 的 。Web 服务 器 所 使 用 的 是 HTTP 协议 ， 因 
此 经 常会 被 称 为 HTTP 服务器。 这 些 HTTP 服务 器 存储 了 因特网 中 的 数据 ， 如 果 








HTTP 客户 端 发 出 请 求 的 话 ， 它 们 会 提供 数据 。 客 户 端 向 服务 器 发 送 HTTP 请 求 ， 
服务 器 会 在 HTTP 响应 中 回 送 所 请 求 的 数据 ， 如 图 1-1 所 示 。HTTP 客户 端 和 HTTP 
服务 器 共同 构成 了 万 维 网 的 基本 组 件 。 








www.oreillycom 


HTTP 请 求 
“请 将 名 为 /index.html 的 文档 发 给 我 ” 
HTTP 响 应 


客户 端 “好 的 ， 这 就 是 。 文 档 是 以 HTML 服务 器 
格式 给 出 的 ， 有 3150 字 节 长 。” 























1-1 Web 客户 端 和 服务 器 


可 能 你 每 天 都 在 使 用 HTTP 客户 端 。 最 常见 的 客户 端 就 是 Web 浏览 器 ， 比 如 微软 的 
Internet Explorer 或 网 景 的 Navigator, Web 浏览 器 向 服务 器 请 求 HTTP 对 象 ， 并 将 
这 些 对 象 显示 在 你 的 屏幕 上 。 


浏览 一 个 页 面 时 (比如 http://www.oreilly.com/index.html)， 浏 览 器 会 向 服务 器 
www.oreilly.com 发 送 一 条 HTTP 请 求 (参见 图 1-1) 。 服 务 器 会 去 寻找 所 期 望 的 对 
象 (在 这 个 例子 中 就 是 /index.html) ， 如 果 成 功 ， 就 将 对 象 、 对 象 类 型 、 对 象 长 度 以 
及 其 他 一 些 信 息 放 在 HTTP 响应 中 发 送 给 客户 端 。 


13 资源 


Web 服务 器 是 Web 资源 (Web resource) 的 宿主 。Web 资源 是 Web 内 容 的 源头 。 
最 简单 的 Web 资源 就 是 Web 服务 器 文件 系统 中 的 静态 文件 。 这 些 文件 可 以 包含 
任意 内 容 : 文本 文件 、 HTML 文件 、 微 软 的 Word 文件 、Adobe 的 Acrobat 文件 、 
JPEG 图 片 文 件 、AVI 电 影 文件 ， 或 所 有 其 他 你 能 够 想到 的 格式 。 


但 资源 不 一 定 非 得 是 静态 文件 。 资 源 还 可 以 是 根据 需要 生成 内 容 的 软件 程序 。 这 些 
动态 内 容 资 源 可 以 根据 你 的 身份 、 所 请 求 的 信息 或 每 天 的 不 同时 段 来 产生 内 容 。 它 
们 可 以 为 你 显示 照相 机 中 活生生 的 照片 ， 也 可 以 帮 你 进行 股票 交易 ， 搜 索 房 产 数据 
E, 或 者 从 在 线 商 店 中 购买 礼物 (参见 图 1-2)。 
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房产 搜索 网 关 


























1-2 ”所 有 能 够 提供 Web 内 容 的 东西 都 是 Web 资源 


总 之 ， 所 有 类 型 的 内 容 来 源 都 是 资源 。 包 含 公司 销售 预测 电子 表格 的 文件 是 一 种 资 
源 。 扫 描 本 地 公共 图 书馆 书架 的 Web 网 关 是 一 种 资产。 因特网 搜索 引擎 也 是 一 种 
资源 。 


1.9.1 媒体 类 型 

因特网 上 有 数 千 种 不 同 的 数据 类 型 ，HTTP 仔细 地 给 每 种 要 通过 Web 传输 的 对 
象 都 打上 了 名 为 MIME 类 型 (MIME type) 的 数据 格式 标签 。 最 初 设 计 MIME 
(Multipurpose Internet Mail Extension， 多 用 途 因 特 网 邮件 扩展 ) 是 为 了 解决 在 不 同 
的 电子 邮件 系统 之 间 搬 移 报 文 时 存在 的 问题 。MIME 在 电子 邮件 系统 中 工作 得 非常 
好 ， 因 此 HTTP 也 采纳 了 它 ， 用 它 来 描述 并 标记 多 媒体 内 容 。 


Web 服务 器 会 为 所 有 HTTP 对 象 数 据 附加 一 个 MIME 类 型 (参见 图 1-3)。 当 Web 
浏览 器 从 服务 器 中 取 回 一 个 对 象 时 ,会 去 查看 相关 的 MIME 类 型 ， 看 看 它 是 否 知道 
应 该 如 何 处 理 这 个 对 象 。 大 多 数 浏览 器 都 可 以 处 理 数 百 种 常见 的 对 象 类 型 ， 显示 图 
片 文件 、 解 析 并 格式 化 HTML 文件 、 通 过 计算 机 声卡 播放 音频 文件 ， 或 者 运行 外 部 
插件 软件 来 处 理 特 殊 格 式 的 数据 。 
































6 | 第 1 章 





MIME 类 型 
' Content-type: image/jpeg: 
' Content E 


i jpeg ， 
ength: 12984 1 





客户 端 : m— | 服务 器 











1-3 与 数据 内 容 一 同 回 送 的 MIME 类 型 


MIME 类 型 是 一 种 文本 标记 ， 表 示 一 种 主要 的 对 象 类 型 和 一 个 特定 的 子 类 型 ， 中 间 
由 一 条 斜 杠 来 分 隔 。 


° HTML 格式 的 文本 文档 由 text/html 类 型 来 标记 。 

° 普通 的 ASCII 文本 文档 由 text /plain 类 型 来 标记 。 

* JPEG 格式 的 图 片 为 image/jpeg 类 型 。 

。 GIF 格式 的 图 片 为 image/gif 类 型 。 

° Apple 的 QuickTime 电影 为 video/quicktime 类 型 。 

° 微软 的 PowerPoint 演示 文件 为 application/vnd.ms-powerpoint 类 型 。 

















常见 的 MIME 类 型 有 数 百 个 ， 实 验 性 或 用 途 有 限 的 MIME 类 型 则 更 多 。 附 录 D Të 
供 了 一 个 非常 完整 的 MIME 类 型 列表 。 


1.3.2 URI 

每 个 Web 服务 器 资源 都 有 一 个 名 字 ， 这 样 客户 端 就 可 以 说 明 它 们 感 兴趣 的 资源 是 
什么 了 。 服 务 器 资源 名 被 称 为 统一 资源 标识 符 (Uniform Resource Identifier, URI), 
URI 就 像 因特网 上 的 邮政 地 址 一 样 ， 在 世界 范围 内 唯一 标识 并 定位 信息 资源 。 

这 是 Joe 的 五 金 商店 的 Web 服务 器 上 一 个 图 片 资 源 的 URI: 





http://www.joes-hardware.com/specials/saw-blade.gif 
1-4 显示 了 URI 是 怎样 指示 HTTP 协议 去 访问 Joe 商店 服务 器 上 的 图 片 资源 的 。 


给 定 了 URI, HTTP 就 可 以 解析 出 对 象 。URI 有 两 种 形式 ， 分 别称 为 URL fll URN, 
现在 我 们 分 别 来 看 看 这 些 资源 标识 符 类 型 。 





1.3.3 URL 
统一 资源 定位 符 〈【URL) 是 资源 标识 符 最 常见 的 形式 。URL 描述 了 一 人 台 特 定 服务 器 
上 对 资源 的 特定 位 置 。 它 们 可 以 明确 说 明 如 何 从 一 个 精确 、 固 定 的 位 置 获取 资源 。 
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图 1-4 显示 了 URL 如 何 精确 地 说 明 某 资源 的 位 置 以 及 如 何 去 访 问 它 。 表 1-1 显示 了 
JLA URL 实例 。 








1 2 3 
使 用 HTTP 协 议 ”进入 www.joes-hardware.com ”获取 名 为 /specials/saw-blade.gif 的 资源 
| | | 











http://www.joes-hardware.com/specials/saw-blade.gif 


， Content-type: image/gif ' 
Content J length i EHA ' 








客户 端 











1-4 URL 说 明了 协议 、 服 务 器 和 本 地 资源 


表 1-1 URL 实 例 








URL mox 
http://www.oreilly.com/index.html O'Reilly & Associates 公司 的 主 URL 
http://www.yahoo.com/images/logo.gif Yahoo! 的 Web 站 点 标志 URL 
http://www.joes-hardware.com/inventory-check. 一 个 查看 库存 条 目 #12731 是 否 有 现货 的 程序 的 
cgi?item=12731 URL 


ftp://joe:tools4u@ftp.joes-hardware.com/locking- ”以 密码 保护 的 FTP 作 为 访问 协议 的 locking- 
pliers.gif pliers.gif 图 片 文件 的 URL 


大 部 分 URL 都 遵循 一 种 标准 格式 ， 这 种 格式 包含 三 个 部 分 。 

° URL 的 第 一 部 分 被 称 为 方案 (scheme), 说 明了 访问 资源 所 使 用 的 协议 类 型 。 这 
部 分 通常 就 是 HTTP 协议 (http://) 。 

。 第 二 部 分 给 出 了 服务 器 的 因特网 地 址 (比如 ，www.joes-hardware.com ) 。 

。 其 余部 分 指定 了 Web 服务 器 上 的 某 个 资源 (比如 ，/specials/saw-blade.gif)。 

















现在 ， 几 乎 所 有 的 URI 都 是 URL, 


1.3.4 URN 

URI 的 第 二 种 形式 就 是 统一 资源 名 (URN), URN 是 作为 特定 内 容 的 唯一 名 称 使 用 
的 ， 与 目前 的 资源 所 在 地 无 关 。 使 用 这 些 与 位 置 无 关 的 URN， 就 可 以 将 资源 四 处 搬 
移 。 通 过 URN， 还 可 以 用 同一 个 名 字 通 过 多 种 网 络 访问 协议 来 访问 资源 。 





























比如 ， 不 论 因 特 网 标准 文档 RFC 2141 位 于 何 处 (其 至 可 以 将 其 复制 到 多 个 地 方 )， 
都 可 以 用 下 列 URN 来 命名 它 : 





urn:ietf:rfc:2141 


URN 仍然 处 于 试验 阶段 ， 还 未 大 范围 使 用 。 为 了 更 有 效 地 工作 ，URN 需要 一 个 支 
撑 架 构 来 解析 资源 的 位 置 。 而 此 类 架构 的 缺乏 也 延缓 了 其 被 采用 的 进度 。 但 URN 
确实 为 未 来 发 展 作 出 了 . dies 我 们 将 在 第 2 章 较为 详细 地 讨论 
URN, ， 而 本 书 的 其 余部 分 讨论 的 基本 上 都 是 URL, 


除非 特殊 说 明 ， 否 则 本 书 的 其 余部 分 都 会 使 用 约定 的 术语 ， 并 且 会 不 加 区 别 地 使 用 
URI # URL, 


14 事务 


_ ia de N A 器 及 其 资源 进行 事务 处 理 
的 。 一 个 HTTP 事务 由 一 条 (从 客户 妆 计 发 往 服务 器 的 ) 请 求 命令 和 一 个 (从 服务 器 

发 回 客户 端的 ) 响应 结 xa. 这 种 通信 是 通过 名 为 HTTP 4& xx (HTTP message) 
的 格式 化 数据 块 进行 的 ， 如 图 1-5 所 示 。 















































包含 命令 和 URI 的 HTTP 请 求 报 文 


GET /specials/saw-blade.gif HTTP/1.0 
| Host: www. joes-hardware.com 


L 因特网 | e 


-— HITP/1.0 200 OK 
客户 端 4 Content-type: inage/gif |‘ www.joes-hardware.com 


Content-length: 8572 























包含 事务 结果 的 HTTP 响 应 报 文 





























E 1-5 包含 请 求 及 响应 报 文 的 HTTP 事务 


1.4.4 方法 

HTTP 支持 几 种 不 同 的 请 求 命令 ， 这 些 命 om 每 
条 HTTP 请 求 报 文 都 包含 一 个 方法 。 这 个 方法 会 告诉 服务 器 要 执行 什么 动作 (获取 

一 个 Web TIT. 运行 一 个 网 关 程 序 、 pode 个 文件 等 )。 表 1-2 列 出 了 五 种 常见 的 

HTTP 方法 。 
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表 1-2 一 些 常见 的 HTTP 方 法 












































HTTP 方 法 描 述 

GET 从 服务 器 向 客户 端 发 送 命名 资源 

PUT 将 来 自 客户 端的 数据 存储 到 一 个 命名 的 服务 器 资源 中 去 
DELETE 从 服务 器 中 删除 命名 资源 

POST 将 客户 端 数据 发 送 到 一 个 服务 器 网 关 应 用 程序 

HEAD 仅 发 送 命名 资源 响应 中 的 HTTP 首部 

















我 们 会 在 第 3 章 详细 讨论 HTTP 方法 。 


1.4.8. ”状态 码 

每 条 HTTP 响应 报 文 返回 时 都 会 携带 一 个 状态 码 。 状 态 码 是 一 个 三 位 数字 的 代码 ， 
告知 客户 端 请 求 是 否 成 功 ， 或 者 是 否 需 要 采取 其 他 动作 。 表 1-3 显示 了 几 种 常见 的 
状态 码 。 


表 1-3 一些 常见 的 HTTP 状 态 码 




















HTTP 状 态 码 描 xk 
200 OK。 文 档 正 确 返 回 
302 Redirect ( 重 定向 )。 到 其 他 地 方 去 获取 资源 
404 Not Found ( 没 找 到 )。 无 法 找到 这 个 资源 


伴随 着 每 个 数字 状态 码 ，HTTP 还 会 发 送 一 条 解释 性 的 “原因 短语 ”文本 (参见 图 
1-5 中 的 响应 报 文 )。 包 含 文本 短语 主要 是 为 了 进行 描述 ， 所 有 的 处 理 过 程 使 用 的 都 
是 数字 码 。 
HTTP 软件 处 理 下 列 状态 码 和 原因 短语 的 方式 是 一 样 的 。 

200 OK 

200 Document attached 


200 Success 
200 All's cool, dude 


第 3 章 详细 解释 了 HTTP 状态 码 。 








1.4.8 ”Web 页 面 中 可 以 包含 多 个 对 象 

应 用 程序 完成 一 项 任务 时 通常 会 发 布 多 个 HTTP 事务 。 比 如 ，Web 浏览 器 会 发 布 一 
系列 HTTP 事务 来 获取 并 显示 一 个 包含 了 丰富 图 片 的 Web 页 面 。 浏 览 器 会 执行 一 个 
事务 来 获取 描述 页 面 布局 的 HTML“ 框 架 *"， 然 后 发 布 男 外 的 HTTP 事务 来 获取 每 
ARANKA., Kmi, Java 小 程序 等 。 这 些 各 入 式 资源 甚至 可 能 位 于 不 同 的 服 
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务 器 上 ， 如 图 1-6 所 示 。 因 此 , 一 个 “Web 页 面 ”通常 并 不 是 单个 资源 ， 而 是 一 组 
资源 的 集合 。 











服务 器 1 























图 1-6 复合 Web 页 面 要 为 每 个 谋 入 式 资源 使 用 一 个 单独 的 HTTP 事务 


1.5 RX 


现在 我 们 来 快速 浏览 一 下 HTTP 请 求 和 响应 报 文 的 结构 。 第 3 章 会 深入 研究 HTTP 
报 文 。 
HTTP 报 文 是 由 一 行 一 行 的 简单 字符 串 组 成 的 。HTTP 报 文 都 是 纯 文本 ， 不 是 二 进 


制 代 码 ， 所 以 人 们 可 以 很 方便 地 对 其 进行 读 写 '。 图 1-7 显示 了 一 个 简单 事务 所 使 用 
的 HTTP 报 文 。 














(a) 请 求 报 文 (b) 响应 报 文 
GET /test/hi-there.txt HTTP/1.0 Ü 起 始 行 | HTTP/1.0 200 OK 

















Accept: text/* Meg Content-type: text/plain 
š Content-length: 19 

















Accept-Language: en,fr 








主体 |Hil I'm a message! 




















图 1-7 由 一 行 行 的 简单 文本 结构 组 成 的 HTTP 报 文 

















注 1: 有 些 程序 员 会 抱怨 HTTP 的 语法 解析 太 困 难 了 ， 这 项 工作 需要 很 多 技巧 ， 而 且 很 容易 出 错 ， 尤 其 是 在 
设计 高 速 软件 的 时 候 更 是 如 此 。 二 进 制 格式 或 更 严格 的 文本 格式 可 能 更 容易 处 理 ， 但 大 多 数 HTTP 程 
序 员 都 很 欣赏 HTTP 的 可 扩展 性 以 及 可 调试 性 。 
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从 Web 客户 端 发 往 Web 服务 器 的 HTTP 报 文 称 为 请 求 报 文 (request message), M 
服务 器 发 往 客 户 端的 报 文 称 为 响应 报 文 (response message)， 此 外 没有 其 他 类 型 的 
HTTP 报 文 。HTTP 请 求 和 响应 报 文 的 格式 很 类 似 。 





HTTP 报 文 包括 以 下 三 个 部 分 。 

。 起 始 行 
报 文 的 第 一 行 就 是 起 始 行 ， 在 请 求 报 文 中 用 来 说 明 要 做 些 什 么 ， 在 响应 报 文 中 说 
明 出 现 了 什么 情况 。 





。 首部 字段 
起 始 行 后面 有 零 个 或 多 个 首部 字段 。 每 个 首部 字段 都 包含 一 个 名 字 和 一 个 值 ， 为 
了 便于 解析 ， 两 者 之 间 用 冒号 €) 来 分 隔 。 首 部 以 一 个 空 行 结束 。 添 加 一 个 首 
部 字段 和 添加 新 行 一 样 简 单 。 

。 主体 
空 行 之 后 就 是 可 选 的 报 文 主体 了 ， 其 中 包含 了 所 有 类 型 的 数据 。 请 求 主体 中 包括 
了 要 发 送 给 Web 服务 器 的 数据 ;响应 主体 中 装载 了 要 返回 给 客户 端的 数据 。 起 
台 行 和 首部 都 是 文本 形式 且 都 是 结构 化 的 ， 而 主体 则 不 同 ， 主 体 中 可 以 包含 任意 
的 二 进 制 数据 (比如 图 片 、 视 频 、 音 轨 、 软 件 程序 )。 当 然 ， 主体 中 也 可 以 包含 
文本 。 


4 n" 

简单 的 报 文 实例 

图 1-8 显示 了 可 能 会 作为 某 个 简单 事务 的 一 部 分 发 送 的 HTTP Tk r. QU gs i >K UE 
源 http:Wwww.joes-hardware.comy/tools.html。 

















在 图 1-8 中 ， 浏 览 器 发 送 了 一 条 HTTP 请 求 报 文 。 这 条 请 求 的 起 始 行 中 有 一 个 GET 
命令 ， 且 本 地 资源 为 /tools.html。 这 条 请 求 说 明 它 使 用 的 是 1.0 版 的 HITP 协议 。 请 
求 报 文 没有 主体 ， 因 为 从 服务 器 上 GET 一 个 简单 的 文档 不 需要 请 求 数据 。 


服务 器 会 回 送 一 条 HTTP 响应 报 文 。 这 条 响应 中 包含 了 HTTP 的 版 本 号 (HTTP/1.0)、 
一 个 成 功 状 态 码 (200)、 一 个 描述 性 的 原因 短语 (OK)， 以 及 一 块 响应 首部 字 
段 ， 在 所 有 这 些 内 容 之 后 跟着 包含 了 所 请 求 文档 的 响应 主体 。content-Length 
首部 说 明了 响应 主体 的 长 度 ，content -Type 首部 说 明了 文档 的 MIME 类 型 。 

















(a) 请 求 报 文 


请 求 起 始 行 (命令 ) GET /tools.html HTTP/1.0 

User-agent: Mozilla/4.75 [en] (Win98; U) 
Host: www.joes-hardware.com 

请 求 首部 于 Accept: text/html, image/gif, image/jpeg 
Accept-language: en 

















没有 请 求 主体 * 


客户 端 (b) 响应 报 文 www.joes-hardware.com 










响应 起 始 行 十 HTTP/1.0 200 OK 
(状态 ) Date: Sun, o1 Oct 2000 23:25:17 GMT 
uus | Server: Apache/1.3.11 BSafe-SSL/1.38 (Unix) 
响应 首部 十 Last-modified: Tue, 04 Jul 2000 09:46:21 GMT 
Content-length: 403 
Content-type: text/html 








«HTML» 

«HEAD»«TITLE»Joe?s Tools«/TITLE»«/HEAD» 
«BODY» 

«Hi»Tools Page</H1> 

«H2»Hammers«/H2» 


«P»Joe's Hardware Online has the largest selection of 
hammers on the earth.«/P» 


响应 主体 十 <H2><A NAME-drills»«/A»Drills«/H2» 

«P»Joe's Hardware has a complete line of cordless 
and corded drills, as well as the latest in 
plutonium-powered atomic drills, for those big 
around the house jobs.«/P»... 

«/BODY» 


</HTML> 




















1-8 http://www.joes-hardware.com/tools.html 的 GET 事务 实例 


1.6 ”连接 


概要 介绍 了 HTTP 报 文 的 构成 之 后 ， 我 们 来 讨论 一 下 报 文 是 如 何 通过 传输 控制 协议 
(Transmission Control Protocol, TCP) 连接 从 一 个 地 方 搬移 到 另 一 个 地 方 去 的 。 


1.6.1 TCP/IP 


HTTP 是 个 应 用 层 协议 。HTTP Z6 b M 38 ARAE, EJER PES Zr D 
交 给 了 通用 、 可 靠 的 因特网 传输 协议 TCP/IP. 




















TCP 提供 了 : 
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° 无 差错 的 数据 传输 ， 
。 按 序 传输 (数据 总 是 会 按照 发 送 的 顺序 到 达 ) ， 
。 未 分 段 的 数据 流 (可 以 在 任意 时 刻 以 任意 尺寸 将 数据 发 送出 去 )。 


因特网 自身 就 是 基于 TCP/IP 的 ，TCP/IP 是 全 世界 的 计算 机 和 网 络 设备 常用 的 层次 
化 分 组 交换 网 络 协议 集 。TCP/IP 隐藏 了 各 种 网 络 和 硬件 的 特点 及 弱点 ， 使 各 种 类 型 
的 计算 机 和 网 络 都 能 够 进行 可 靠 地 通信 。 


只 要 建立 了 TCP 连接 ， 客 户 端 和 服务 器 之 间 的 报 文 交换 就 不 会 丢失 、 不 会 被 破坏 ， 
也 不 会 在 接收 时 出 现 错 序 了 。 


用 网 络 术 语 来 说 ，HTTP 协议 位 于 TCP 的 上 层 。HTTP 使 用 TCP 来 传输 其 报 文 数 
据 。 与 之 类 似 ，TCP 则 位 于 IP 的 上 层 (参见 图 1-9), 





HTTP 应 用 层 








TCP 传输 层 


IP 网 络 层 
网 络 特有 的 链 路 接口 数据 链 路 








Nm 





物理 网 络 硬件 物理 层 




















图 1-9 HTTP 网 络 协议 栈 


1.6.2 ”连接 、IP 地 址 及 端口 号 
在 HTTP 客户 端 向 服务 器 发 送 报 文 之 前 ， 需 要 用 网 际 协议 (Internet Protocol, IP) 
地 址 和 端口 号 在 客户 端 和 服务 器 之 间 建 立 一 条 TCP/IP 连接 。 





建立 一 条 TCP 连接 的 过 程 与 给 公司 办 公 室 的 某 个 人 打 电 话 的 过 程 类 似 。 首 先 ， 要 拨 
打 公 司 的 电话 号 码 。 这 样 就 能 进入 正确 的 机 构 了 。 其 次， 拨打 要 联系 的 那个 人 的 分 
机 号 。 


fÉ TCP 中 ， 你 需要 知道 服务 器 的 IP 地址 ， 以 及 与 服务 器 上 运行 的 特定 软件 相关 的 
TCP 端口 号 。 








这 就 行 了 ， 但 最 初 怎么 获得 HTTP 服务 器 的 IP 地 址 和 端口 号 呢 ? 当然 是 通过 URL 
Y! 我 们 前 面 曾 提 到 过 ，URL 就 是 资源 的 地 址 ， 所 以 自然 能 够 为 我 们 提供 存储 资源 
的 机 器 的 IP 地 址 。 我 们 来 看 几 个 URL: 
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http://207.200.83.29:80/index.html 
http://www.netscape.com:80/index.html 
http://www.netscape.com/index.html 


第 一 个 URL 使 用 了 机 器 的 IP 地 址 ，207.200.83.29 以 及 端口 号 80。 


第 二 个 URL 没有 使 用 数字 形式 的 IP 地 址 ， 它 使 用 的 是 文本 形式 的 域名 ， 或 者 称 为 
主机 名 (www.netscape.com)。 主 机 名 就 是 IP 地 址 比较 人 性 化 的 别称 。 可 以 通过 一 
种 称 为 域名 服务 (Domain Name Service，DNS) 的 机 制 方便 地 将 主机 名 转换 为 IP 
地 址 ， 这 样 所 有 问题 就 都 解决 了 。 第 2 章 会 介绍 更 多 有 关 DNS 和 URL 的 内 容 。 


最 后 一 个 URL 没有 端口 号 。HTTP 的 URL 中 没有 端口 号 时 ， 可 以 假设 默认 端口 号 是 80。 
A f IP 地 址 和 端口 号 ， 客 户 端 就 可 以 很 方便 地 通过 TCP/IP 进行 通信 了 。 图 1-10 © 
示 了 议 览 器 是 怎样 通过 HTTP 显示 位 于 远 端 服务 器 中 的 某 个 简单 HTML 资源 的 。 


WUMRAURU co) susci (80) 


JA gc MN 连接 到 161:58.228.45 的 端口 80 




















http://www.joes-hardware.com: 80/tools.html 
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步骤 如 下 : 


(a) 浏览 器 从 URL 中 解析 出 服务 器 的 主机 名 ， 

(b) 浏览 器 将 服务 器 的 主机 名 转换 成 服务 器 的 IP 地 址 ; 
(c) 浏览 器 将 端口 号 (如 果 有 的 话 ) 从 URL 中 解析 出 来 ; 
(d) 浏览 器 建立 一 条 与 Web 服务 器 的 TCP 连接， 

(e) 浏览 器 向 服务 器 发 送 一 条 HTTP 请 求 报 文 ; 

(f) 服务 器 向 浏览 器 回 送 一 条 HTTP Wi] oz TR C s 

(g) 关闭 连接 ， 浏 览 器 显示 文档 。 


1.6.3 ”一 个 使 用 Telnet 的 实例 
由 于 HTTP 使 用 了 TCP/IP 传输 协议 ， 而 且 它 是 基于 文本 的 ， 没 有 使 用 那些 难以 理 
解 的 二 进 制 格式 ， 因 此 很 容易 直接 与 Web 服务 器 进行 对 话 。 


Telnet 程序 可 以 将 键盘 连接 到 其 个 目标 TCP 端口 ， 并 将 此 TCP 端口 的 输出 回 送 到 
显示 屏 上 。Telnet 常用 于 远程 终端 会 话 ， 但 它 几 乎 可 以 连接 所 有 的 TCP 服务 器 ， 包 
括 HTTP 服务 器 








可 以 通过 Telnet 程序 直接 与 Web 服务 器 进行 对 话 。 通 过 Telnet 可 以 打开 一 条 到 
某 台 机 器 上 某 个 端口 的 TCP 连接 ， 然 后 直接 向 那个 端口 输入 一 些 字符 。Web 服务 
器 会 将 Telnet 程序 作为 一 个 Web 客户 端 来 处 理 ， 所 有 回 送 给 TCP 连接 的 数据 都 
会 显示 在 屏幕 上 





我 们 用 Telnet 与 一 个 实际 的 Web 服务 器 进行 交互 。 我 们 要 用 Telnet 获取 URL 

http://www.joes-hardware.com:80/tools.html 所 指 问 的 文档 (你 可 以 自己 尝试 一 下 这 

个 实例 )。 

我 们 来 看 看 会 发 生 什么 情况 。 

° Hb, dX www.joes-hardware.com 的 IP 地址， 打开 一 条 到 那 台 机 器 端口 80 的 
TCP 连接 。Telnet 会 为 我 们 完成 那些 “ 跑 腿 儿 ” 的 工作 。 

° 一 旦 打开 了 TCP 连接 ， 就 要 输入 HTTP 请 求 了 。 

° 请 求 结 束 (由 一 个 空 行 表示 ) 之 后 ， 服 务 器 会 在 一 条 HTTP 响应 中 将 内 容 回 送 并 
关闭 连接 。 

例 1-1 显示 了 对 http://www.joes-hardware.com:80/tools.html 的 HTTP 请 求实 例 。 我 

们 输入 的 内 容 用 粗 体 字 表示 。 





例 1-1 一 个 使 用 Telnet 的 HTTP 事务 


% telnet www.joes-hardware.com 80 
Trying 161.58.228.45... 

Connected to joes-hardware.com. 
Escape character is '^]'. 

GET /tools.html HTTP/1.1 

Host: www.joes-hardware.com 


HTTP/1.1 200 OK 

Date: Sun, 01 Oct 2000 23:25:17 GMT 

Server: Apache/1.3.11 BSafe-SSL/1.38 (Unix) FrontPage/4.0.4.3 
Last-Modified: Tue, 04 Jul 2000 09:46:21 GMT 

ETag: "373979-193-3961pb26d" 

Accept-Ranges: bytes 

Content-Length: 403 

Connection: close 

Content-Type: text/html 


<HTML> 
<HEAD><TITLE>Joe's Tools</TITLE></HEAD> 

<BODY> 

<Hl>Tools Page</H1> 

<H2>Hammers</H2> 

<P>Joe's Hardware Online has the largest selection of hammers on the 
earth.</P> 

<H2><A NAME=drills></A>Drills</H2> 

<P>Joe's Hardware has a complete line of cordless and corded drills, 
as well as the latest 

in plutonium-powered atomic drills, for those big around the house 
jobs.</P> 

</BODY> 

</HTML> 

Connection closed by foreign host. 








Telnet 会 查找 主机 名 并 打开 一 条 连接 ， 连 接 到 在 www.joes-hardware.com 的 端口 80 
上 监听 的 Web 服务 器 。 这 条 命令 之 后 的 三 行内 容 是 Telnet 的 输出 ， 告 诉 我 们 它 已 经 
建立 了 连接 。 





然后 我 们 输入 最 基本 的 请 求 命令 GET/tools.html HTTP/1.1， 发 送 一 个 提供 了 源 
端 主机 名 的 Host 首部 ， 后 面 跟 上 一 个 空 行 ， 请 求 从 服务 器 www.joes-hardware.com 
上 获取 资源 tools.html。 随 后 ， 服 务 器 会 以 一 个 响应 行 、 几 个 响应 首部 、 一 个 空 行 和 
最 后 面 的 HTML 文档 主体 来 应 答 。 


要 明确 的 是 ，Telnet 可 以 很 好 地 模拟 HTTP 客户 端 ， 但 不 能 作为 服务 器 使 用 。 而 且 
对 Telnet 做 脚本 自动 化 是 很 繁琐 乏味 的 。 如 果 想 要 更 灵活 的 工具 ， 可 以 去 看 看 nc 
(netcat) 。 通 过 nc 可 以 很 方便 地 操纵 基于 UDP 和 TCP 的 流量 (包括 HTTP)， 还 可 
以 为 其 编写 脚本 。 更 多 细节 参见 http://www.bgw.org/tutorials/utilities/nc.php^, 











注 2: 该 链接 已 失效 ， 读 者 可 以 访问 http://en.wikipedia.org/wiki/Netcat。( 编 者 注 ) 
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7 协议 版 本 


现在 使 用 的 HTTP 协议 有 几 个 版 本 。HTTP 应 用 程序 要 尽量 强健 地 处 理 各 种 不 同 的 
HTTP 协议 变 体 。 目 前 仍 在 使 用 的 版 本 如 下 。 





HTTP/0.9 

HTTP 的 1991 原型 版 本 称 为 HITP/0.9。 这 个 协议 有 很 多 严重 的 设计 缺陷 ， 只 应 
该 用 于 与 老 客户 端的 交互 。HTTP/0.9 只 支持 GET 方法 ， 不 支持 多 媒体 内 容 的 
MIME 类 型 、 各 种 HTTP 首部 ， 或 者 版 本 号 。HTTP/0.9 定义 的 初衷 是 为 了 获取 
简单 的 HTML 对 象 ， 它 很 快 就 被 HTTP/1.0 取代 了 。 








HTTP/1.0 

1.0 是 第 一 个 得 到 广泛 使 用 的 HTTP 版 本 。HTTP/1.0 添加 了 版 本 号 、 各 种 HTTP 
首部 、 一 些 额 外 的 方法 ， 以 及 对 多 媒体 对 象 的 处 理 。HTTP/1.0 使 得 包含 生动 图 
片 的 Web 页 面 和 交互 式 表格 成 为 可 能 ， 而 这 些 页 面 和 表格 促使 万 维 网 为 人 们 广 
泛 地 接受 。 这 个 规范 从 未 得 到 良好 地 说 明 。 在 这 个 HTTP 协议 的 商业 演进 和 学 术 
研究 都 在 快速 进行 的 时 代 ， 它 集合 了 一 系列 的 最 佳 实践 。 





HTTP/1.0+ 

在 20 世纪 90 年 代 中 叶 ， 很 多 流行 的 Web 客户 端 和 服务 器 都 在 飞快 地 向 HTTP 
中 添加 各 种 特性 ， 以 满足 快速 扩张 且 在 商业 上 十 分 成 功 的 万 维 网 的 需要 。 其 中 很 
多 特性 ， 包 括 持久 的 keep-alive 连接 、 虚 拟 主机 支持 ， 以 及 代理 连接 支持 都 被 加 
入 到 HTTP 之 中 ， 并 成 为 非 官方 的 事实 标准 。 这 种 非 正式 的 HTTP 扩展 版 本 通常 
称 为 HTTP/1.0+。 

















HTTP/1.1 

HTTP/1.1 重点 关注 的 是 校正 HTTP 设计 中 的 结构 性 缺陷 ， 明 确 语义 ， 引 入 重要 
的 性 能 优化 措施 ， 并 删除 一 些 不 好 的 特性 。HTTP/1.1 还 包含 了 对 20 世纪 90 年 
代 末 正在 发 展 中 的 更 复杂 的 Web 应 用 程序 和 部 署 方 式 的 支持 。HTTP/1.1 是 当前 
使 用 的 HTTP 版 本 。 


HTTP-NG (又 名 HTTP/2.0) 

HTTP-NG 是 HTTP/1.1 后 继 结构 的 原型 建议 ， 它 重点 关注 的 是 性 能 的 大 幅 优化 ， 
以 及 更 强大 的 服务 逻辑 远程 执行 框架 。HTTP-NG 的 研究 工作 终止 于 1998 年 ， 编 
写本 书 时 ， 还 没有 任何 要 用 此 建议 取代 HTTP/1.1 的 推广 计划 。 更 多 信息 请 参见 
第 10 章 。 
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1.8 ”Web 的 结构 组 件 

在 本 章 的 概述 中 ， 我 们 重点 介绍 了 两 个 Web 应 用 程序 (Web 浏览 器 和 Web 服务 器 ) 
是 如 何 相互 发 送 报 文 来 实现 基本 事务 处 理 的 。 在 因特网 上 ， 要 与 很 多 Web 应 用 程序 
进行 交互 。 在 本 节 中 ， 我 们 将 列 出 其 他 一 些 比较 重要 的 应 用 程序 ， 如 下 所 示 。 








。 代理 
位 于 客户 端 和 服务 器 之 间 的 HTTP 中 间 实 体 。 
HTTP 的 仓库 ， 使 常用 页 面 的 副本 可 以 保存 在 离 客户 端 更 近 的 地 方 。 
网 关 
连接 其 他 应 用 程序 的 特殊 Web 服务 器 。 


对 HTTP 通信 报 文 进行 盲 转发 的 特殊 代理 。 


。 Agent 代理 
发 起 自动 HTTP 请 求 的 半 智 能 Web 客户 端 。 


1.8.1 代理 

首先 我 们 来 看 看 HTTP 代理 服务 器 ， 这 是 Web 安全 、 应 用 集成 以 及 性 能 优化 的 重要 
组 成 模块 。 

如 图 1-11 所 示 ， 代 理 位 于 客户 端 和 服务 器 之 间 ， 接 收 所 有 客户 端的 HTTP 请求， 并 
将 这 些 请 求 转发 给 服务 器 (可 能 会 对 请 求 进行 修改 之 后 转发 )。 对 用 户 来 说 ， 这 些 应 
用 程序 就 是 一 个 代理 ,代表 用 户 访问 服务 器 。 























特 网 














图 1-11 在 客户 端 和 服务 器 之 间 转 发 流量 的 代理 

出 于 安全 考虑 ， 通 常会 将 代理 作为 转发 所 有 Web 流量 的 可 信任 中 间 市 点 使 用 。 代 理 
还 可 以 对 请 求 和 响应 进行 过 滤 。 比 如 ， 在 企业 中 对 下 载 的 应 用 程序 进行 病毒 检测 ， 
或 者 对 小 学 生 屏 蔽 一 些 成 人 才能 看 的 内 容 。 我 们 将 在 第 6 章 详细 介绍 代理 。 
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1.8.2 ”缓存 

Web 缓存 (Web cache) WARI% (proxy cache) 是 一 种 特殊 的 HTTP 代理 服务 
器 ， 可 以 将 经 过 代理 传送 的 常用 文档 复制 保存 起 来 。 下 一 个 请 求 同 一 文档 的 客户 端 
就 可 以 享受 缓存 的 私有 副本 所 提供 的 服务 了 (参见 图 1-12). 

















因特网 


服务 器 



































图 1-12 保存 常用 文档 本 地 副本 以 提高 性 能 的 代理 缓存 


客户 端 从 附近 的 缓存 下 载 文档 会 比 从 远程 Web 服务 器 下 载 快 得 多 。HTTP 定义 了 很 
多 功能 ， 使 得 缓存 更 加 高 效 ， 并 规范 了 文档 的 新 鲜 度 和 缓存 内 容 的 隐私 性 。 第 7 章 
介绍 了 缓存 技术 。 


1.83 ”网关 

网 关 (gateway) 是 一 种 特殊 的 服务 器 ， 作 为 其 他 服务 器 的 中 间 实 体 使 用 。 通 常用 于 
将 HTTP 流量 转换 成 其 他 的 协议 。 网 关 接 受 请 求 时 就 好 像 自 己 是 资源 的 源 端 服务 器 
一 样 。 客 户 端 可 能 并 不 知道 自己 正在 与 一 个 网 关 进 行 通信 。 





























例如 ， 一 个 HTTP/FTP 网 关 会 通过 HTTP 请 求 接 收 对 FTP URI 的 请 求 ， 但 通过 FTP 
协议 来 获取 文档 (参见 图 1-13)。 得 到 的 文档 会 被 封装 成 一 条 HTTP 报 文 ， 发 送 给 
客户 端 。 第 8 章 将 探讨 网 关 。 














HTTP 客 户 端 HTTP/FTP 网 关 FTP 服 务 器 














1-13 HTTP/FTP 网 关 
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1.8.4 ”隧道 

隧道 (tunnel) 是 建立 起 来 之 后 ， 就 会 在 两 条 连接 之 间 对 原始 数据 进行 育 转 发 的 
HTTP 应 用 程序 。HTTP 隧道 通常 用 来 在 一 条 或 多 条 HTTP 连接 上 转发 非 HTTP 数 
据 ， 转 发 时 不 会 宕 探 数 据 。 


HTTP 隧道 的 一 种 常见 用 途 是 通过 HTTP 连接 承载 加 密 的 安全 套 接 字 层 (SSL, 
Secure Sockets Layer) 流量 ， 这 样 SSL 流量 就 可 以 穿 过 只 允许 Web 流量 通过 的 防 
火 墙 了 。 如 图 1-14 所 示 ，HTTP/SSL 隧道 收 到 一 条 HTTP 请 求 ， 要 求 建立 一 条 到 目 
的 地 址 和 端口 的 输出 连接 ， 然 后 在 HTTP 信道 上 通过 隧道 传输 加 密 的 SSL 流量 ， 这 
样 就 可 以 将 其 宵 转 发 到 目的 服务 器 上 去 了 。 















































客户 端 
端口 443 
SSL 
EER 服务 器 





端口 80 











; x 
mB a HTTP 连 接 …> HTTP ESE 


1-14 隧道 可 以 在 非 HTTP 网 络 上 转发 数据 (显示 的 是 HTTP/SSL 隧道 ) 











1.8.5 Agent 代 理 

用 户 Agent 代理 (或 者 简称 为 Agent 代理 ) 是 代表 用 户 发 起 HTTP 请 求 的 客户 端 程 
序 。 所 有 发 布 Web 请 求 的 应 用 程序 都 是 HTTP Agent 代理 。 到 目前 为 止 ， 我 们 只 提 
到 过 一 种 HTTP Agent 代理 : Web 浏览 器 ， 但 用 户 Agent 代理 还 有 很 多 其 他 类 型 。 








比如 ， 有 些 自己 会 在 Web 上 闲 和 逛 的 自动 用 户 Agent 代理 ， 可 以 在 无 人 监视 的 情况 下 
发 布 HTTP 事务 并 获取 内 容 。 这 些 自动 代理 的 名 字 通 常 都 很 生动 ， 比 如 “网 络 蜘蛛 ” 
(spiders) 或 者 “Web 机 器 人 ”(Web robots) (参见 图 1-15)。 网 络 蜂 蛛 会 在 Web 上 
WE, RE EEA A Web 内 容 档 案 ， 比 如 一 个 搜索 引擎 的 数据 库 或 者 为 比 
较 购物 机 器 人 生成 的 产品 目录 。 更 多 信息 请 参见 第 9 章 。 
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Web 服 务 器 Web 服务 器 ”Web 服 务 器 











a Y 


Ë Cb MEET 











1-15 ”自动 搜索 引擎 “网 络 晤 蛛 ” 就 是 Agent 代理 ， 可 以 从 世界 范围 内 获取 Web 页 面 


1.9 起 始 部 分 的 结束 语 


这 就 是 我 们 对 HTTP 的 简要 介绍 。 本 章 中 ， 我 们 重点 介绍 了 作为 多 媒体 传输 协议 使 
用 的 HITP。 概 要 说 明了 HTTP 是 怎样 使 用 URI 来 命名 远程 服务 器 上 的 多 媒体 资源 
的 ， 粗略 介绍 了 如 何 利 用 HTTP 请 求 和 响应 报 文 操纵 远程 服务 器 上 的 多 媒体 资源 ， 
最 后 考察 了 几 种 使 用 HTTP 的 Web 应 用 程序 。 


本 书 的 其 余 章 节 会 更 加 详细 地 介绍 HTTP 协议 、 应 用 程序 及 资源 的 技术 机 制 。 


1.10 更 多 信息 


本 书 稍 后 的 章节 将 更 深入 地 研究 HTTP， 下 面 这 些 资 源 中 也 包含 了 与 本 章 所 涵盖 的 
特定 主题 有 关 的 背景 知识 。 

















1.10.1 HTTP 协议 信息 


° HTTP Pocket Reference (HTTP HEY) 
Clinton Wong #, O'Reilly & Associates 出 版 公司 。 这 本 书 详细 介绍 了 HTTP, 
可 以 作为 构成 HTTP 事务 的 首部 和 状态 码 的 快速 参考 手册 。 
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http://www.w3.org/Protocols/ 
这 个 W3C 的 Web 页 面 中 包含 了 很 多 与 HTTP 协议 有 关 的 重要 链接 。 


http://www ietf.org/rfc/rfc2616.txt 

RFC2616“ 超 文本 传输 协议 一 一 HTTP/1.1” 是 当前 HTTP 协议 版 本 HTTP/1.1 的 官 
方 规范 。 这 个 规范 是 一 本 编写 流畅 、 组 织 恨 好 而 且 非 常 详细 的 HTTP 参考 手册 ， 但 
并 不 适 于 那些 希望 了 解 HTTP 底层 概念 和 动因 ， 或 者 原理 与 实际 应 用 之 间 区 别 的 读 
者 阅读 。 和 希望 本 书 能 够 对 这 些 底层 概念 进行 补充 ， 以 便 读者 更 好 地 使 用 这 个 规范 。 





http://www ietf.org/rfc/rfc1945.txt 

RFC1945“ 超 文本 传输 协议 一 一 HTTP/1.0” 是 一 个 描述 了 HTTP 现代 基础 的 知识 
性 RFC。 它 对 编写 此 规范 时 ， 已 得 到 官方 认可 且 具 有 “最 佳 实践 ”的 Web 应 用 
程序 行为 进行 了 详细 描述 ， 还 讨论 了 一 些 虽 被 HTTP/1.1 所 握 弃 ,但 在 一 些 老 旧 
的 应 用 程序 中 仍 在 广泛 使 用 的 行为 。 


http://www.w3.org/Protocols/HTTP/AsImplemented.html 
这 个 Web 页 面 介绍 了 1991 年 的 HTTP/0.9 协议 ， 这 个 协议 只 实现 了 GET 请 求 ， 
而 且 不 包含 内 容 类 型 。 


.10.2 ”历史 透视 
http://www.w3.org/Protocols/WhyHTTP.html 
这 个 简要 的 Web 页 面 从 1991 年 开始 ， 从 HTTP 作者 的 角度 ， 介 绍 了 HTTP 的 一 
些 起 源 以 及 初级 目标 。 


http://www.w3.org/History.html 
^A Little History of the World Wide Web" ( 万维网 的 简要 历史 ) 对 万 维 网 和 
HTTP 的 一 些 早 期 目标 和 构建 基础 进行 了 简短 但 有 趣 的 剖析 。 





http://www.w3.org/DesignIssues/Architecture.html 
“Web Architecture from 50,000 feet" (zziii Web 结构) 绘制 了 一 幅 广 阔 、 远 
大 的 万 维 网 蓝图 ， 并 详 述 了 影响 HTTP 和 相关 Web 技术 的 设计 原则 。 





.10.3 ”其 他 万 维 网 信息 
http://www.w3.org 
W3C 是 Web 的 科技 驱动 团队 。W3C 致力 于 促进 Web 演化 的 互 操作 性 技术 ( 规 
范 、 准 则 、 软 件 及 工具 ) 研究 。W3C 站 点 是 一 个 包含 了 Web 技术 简介 和 详细 文 
档 的 宝库 。 
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http://www .ietf.org/rfc/rfc2396.txt 
RFC 2396 "Uniform Resource Identifiers (URI) : Generic Syntax” ，( “统一 资源 
标识 符 (URI) : 通用 语法 ") 是 URI 和 URL 的 详细 参考 。 


http://www ieft.ofg/rfc/rfc2141.txt 
RFC2141 “URN Syntax" (“URN 的 语法 ”) 是 一 个 写 于 1997 年 的 描述 URN 18 
法 的 规范 。 


http://www ietf.org/rfc/rfc2046.txt 
RFC2046 “MIME Part 2; Media Types" (“MIME 第 H WD: 媒体 类 型 ”) 是 为 
进行 多 媒体 内 容 管理 而 定义 的 多 用 途 因特网 邮件 扩展 标准 的 五 部 因特网 规范 中 的 


Ar — 35 


P ——nbo 





http://www.wrec.org/Drafts/draft-ietf-wrec-taxonomy-06.txt 
这 个 因特网 草案 “Internet Web Replication and Caching Taxonomy”(“ 因特网 
Web 复制 和 缓存 分 类 法 ”) 解释 了 Web 结构 组 件 中 的 标准 术语 。 
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我 们 可 以 把 因特网 当 作 一 个 巨大 的 正在 扩张 的 城市 ， 里 面 充满 了 各 种 可 看 的 东西 ， 
可 做 的 事情 。 你 和 其 他 居民 ， 以 及 到 这 个 正在 过 勃发 展 的 社区 旅游 的 游客 都 要 为 这 
个 城市 大 量 的 景点 和 服务 使 用 标准 命名 规范 。 博 物 馆 、 饭 店 和 家 庭 住址 要 使 用 街道 
地 址 ， 消 防 局 、 老 板 的 秘书 ， 以 及 抱怨 你 太 少 打 电 话 给 她 的 母亲 要 使 用 电话 号 码 。 


所 有 的 东西 都 有 一 个 标准 化 的 名 字 ， 以 帮助 人 们 寻找 城市 中 的 各 种 资源 。 书 籍 有 
ISBN 号 ， 公 交 车 有 线路 号 ， 银 行 账户 有 账户 编码 ， 个 人 有 社会 保险 号 码 。 明 天 ， 
你 要 到 机 场 的 31 号 出 口 去 接 你 的 生意 伙伴 。 每 天 早上 你 都 要 乘坐 红线 火车 ， 并 在 
Kendall 广场 站 出 站 。 


所 有 人 都 对 这 些 名 字 的 标准 达成 了 一 致 ， 所 以 才能 方便 地 共享 这 座 城市 的 宝藏 。 你 
告诉 出 租车 司机 把 你 载 到 McAllister Aff; 246 号 ， 他 就 知道 你 是 什么 意思 了 (即使 
他 走 的 是 一 条 很 远 的 路 ) 。 


URL 就 是 因特网 资源 的 标准 化 名 称 。URL 指向 一 条 电子 信息 片段 ， 告 诉 你 它们 位 于 

何 处 ， 以 及 如 何 与 之 进行 交互 。 

本 章 ， 我 们 将 介绍 以 下 内 容 : 

。 URL 语法 ， 以 及 各 种 URL 组 件 的 含义 及 其 所 做 的 工作 ， 

° 很 多 Web 客户 端 都 支持 的 URL 快捷 方式 ， 包 括 相 对 URL 和 自动 扩展 URL; 

° URL 编码 和 字符 规则 ，; 

° 支持 各 种 因特网 信息 系统 的 常见 URL 方案 ; 

* URL 的 未 来 ， 包 括 URN 一 一 这 种 框架 可 以 在 对 象 从 一 处 搬移 到 另 一 处 时 ， 保 持 
稳定 的 访问 名 称 。 


2.1 浏览 因特网 资源 

URL 是 浏览 器 寻找 信息 时 所 需 的 资源 位 置 。 通 过 URL， 人 类 和 应 用 程序 才能 找到 、 
使 用 并 共享 因特网 上 大 量 的 数据 资源 。URL 是 人 们 对 HTTP 和 其 他 协议 的 常用 访问 
点 : 一 个 人 将 浏览 器 指向 一 个 URL， 浏 览 器 就 会 在 幕后 发 送 适 当 的 协议 报 文 来 获取 
人 们 所 期 望 的 资源 。 

URI 是 一 类 更 通用 的 资源 标识 符 ，URL 实际 上 是 它 的 一 个 子 集 。URI 是 一 个 通用 的 
概念 ， 由 两 个 主要 的 子 集 URL 和 URN 构成 ，URL 是 通过 描述 资源 的 位 置 来 标识 资 
JHJ, mM URN (本 章 稍 后 会 介绍 ) 则 是 通过 名 字 来 识别 资源 的 ， 与 它们 当前 所 处 位 
置 无 关 。 

HTTP 规范 将 更 通用 的 概念 URI 作为 其 资源 标识 符 ， 但 实际 上 ，HTTP 应 用 程序 处 


理 的 只 是 URI 的 URL 子 集 。 本 书 有 时 会 不 加 区 分 地 使 用 URI 和 URL， 但 我 们 讲 的 
基本 上 都 是 URL, 
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比如 说 ， 你 想 要 获取 URL http://www.joes-hardware.com/seasonal/index-fall.html, 
那么 URL 分 以 下 三 部 分 。 


* URL 的 第 一 部 分 (http) 是 URL 方案 (scheme)。 方 案 可 以 告知 Web 客户 端 怎 
样 访问 资源 。 在 这 个 例子 中 ，URL 说 明 要 使 用 HTTP 协议 。 

° URL 的 第 二 部 分 (www.joes-hardware.com) 指 的 是 服务 器 的 位 置 。 这 部 分 告知 
Web 客户 端 资 源 位 于 何 处 。 

° URL 的 第 三 部 分 (/seasonal/index-fall.html) 是 资源 路 径 。 路 径 说 明了 请 求 的 是 
服务 器 上 哪个 特定 的 本 地 资源 。 

对 此 的 说 明 请 参见 图 2-1。 














| , http://www.joes-hardware.com/seasonal/index-fall.html 
| | j 
方案 








方案 主机 路 径 
| (怎样 做 ) Eus EM 























客户 端 服务 器 











图 2-1 URL 是 怎样 与 浏览 器 、 客 户 端 、 服 务 器 以 及 服务 器 文件 系统 中 的 位 置 进行 关联 的 


URL 可 以 通过 HTTP 之 外 的 其 他 协议 来 访问 资源 。 它 们 可 以 指向 因特网 上 的 任意 党 
源 ， 或 者 个 人 的 E-mail 账户 : 

















mailto:president@whitehouse.gov 


或 者 通过 其 他 协议 〈 比 如 FTP 协议 ) 访问 的 各 种 文件 : 





ftp://ftp.lots-o-books.com/pub/complete-price-list.xls 
或 者 从 流 视频 服务 器 上 下 载 电 影 : 
rtsp://www.Joes-hardware.com:554/interview/cto_video 
URL 提供 了 一 种 统一 的 资源 命名 方式 。 大 多 数 URL 都 有 同样 的 :“ 方 案 :/ 服务 器 
位 置 / 路径” 结构 。 因 此 ， 对 网 络 上 的 每 个 资源 以 及 获取 这 些 资源 的 每 种 方式 来 说 ， 
命名 资源 的 方法 都 只 有 一 种 ， 这 样 不 管 是 谁 都 可 以 用 名 字 来 找到 这 个 资源 了 。 但 是 ， 
事情 并 不 是 一 开始 就 是 这 样 的 。 
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URL 出 现 之 前 的 黑暗 岁月 

f£ Web fll URL 出 现 之 前 ， 人 们 要 靠 分 类 杂乱 的 应 用 程序 来 访问 分 布 在 网 络 中 的 数 
据 。 大 多 数 人 都 不 会 幸运 地 拥有 所 有 合适 的 应 用 程序 ， 或 者 不 能 够 理解 ， 也 没有 足 
够 的 耐心 来 使 用 这 些 程序 。 





fr URL 出现 之 前 ， 要 想 和 朋友 共享 complete-catalog.xls 文件 ， 就 得 说 这 样 一 些 话 : 
“用 FTP 连接 到 ftp.joes-hardware.com 上 。 用 匿名 登录 ， 然 后 输入 你 的 用 户 名 作为 密 
码 。 变 换 到 pub 目录 。 和 转换 为 二 进 制 模式 。 现 在 ， 可 以 将 名 为 complete-catalog.xls 
的 文件 下 载 到 本 地 文件 系统 ， 并 在 那里 浏览 这 个 文件 了 。” 


现在 ， 像 网 景 的 Navigator 和 微软 的 Internet Explorer 这 样 的 浏览 器 都 将 很 多 这 样 
的 功能 捆绑 成 一 个 便捷 包 。 通 过 URL， 这 些 应 用 程序 就 可 以 通过 一 个 接口 ， 以 统 
一 的 方式 去 访问 许多 资源 了 。 只 要 说 “将 浏览 器 指 问 ftp://ftp.lots-o-books.com/pub/ 
complete-catalog.xls” 就 可 以 取代 上 面 那些 复杂 的 指令 了 。 


URL 为 应 用 程序 提供 了 一 种 访问 资源 的 手段 。 实 际 上 ， 很 多 用 户 可 能 都 不 知道 他 们 
的 浏览 器 在 获取 所 请 求 资 源 时 所 使 用 的 协议 和 访问 方法 。 


有 了 Web 浏览 器 ， 就 不 再 需要 用 新 闻 阅 读 器 来 阅读 因特网 新 闻 ， 或 者 用 FTP 客户 
端 来 访问 FTP 服务 器 上 的 文件 了 ， 而 且 也 无 需 用 电子 邮件 程序 来 收发 E-mail HX 
T. URL 告知 浏览 器 如 何 对 资源 进行 访问 和 处 理 ， 这 有 助 于 简化 复杂 的 网 络 世界 。' 
应 用 程序 可 以 使 用 URL 来 简化 信息 的 访问 过 程 。 


URL 为 用 户 及 他 们 的 浏览 器 提供 了 找到 信息 所 需 的 所 有 条 件 。URL 定义 了 用 户 所 需 
的 特定 资源 ， 它 位 于 何 处 以 及 如 何 获 取 它 。 











2.2 ”URL 的 语法 


URL 提供 了 一 种 定位 因特网 上 任意 资源 的 手段 ， 但 这 些 资源 是 可 以 通过 各 种 不 同 的 
方案 (比如 HTTP、FTP、SMTP) 来 访问 的 ， 因 此 URL 语法 会 随 方案 的 不 同 而 有 
所 不 同 。 


这 是 不 是 意味 着 每 种 不 同 的 URL 方案 都 会 有 完全 不 同 的 语法 呢 ? 实际 上 ， 不 是 的 。 
大 部 分 URL 都 遵循 通用 的 URL 语法 ， 而 且 不 同 URL 方案 的 风格 和 语法 都 有 不 少 重 倒 。 











注 1: 浏览 器 通常 会 用 其 他 应 用 程序 来 处 理 特殊 的 资源 。 比 如 ，Internet Explorer 就 启动 了 一 个 E-mail 应 用 
程序 来 处 理 那些 表示 E-mail 资源 的 URL。 
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大 多 数 URL 方案 的 URL 语法 都 建立 在 这 个 由 9 部 分 构成 的 通用 格式 上 : 
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag> 


几乎 没有 哪个 URL 中 包含 了 所 有 这 些 组 件 。URL 最 重要 的 3 个 部 分 是 方案 (scheme). 
主机 (host) 和 路 径 (path), X 2-1 对 各 种 组 件 进行 了 总 结 。 


表 2-1 通用 URL 组 件 





























组 d dE xt 默 认 值 
方案 访问 服务 器 以 获取 资源 时 要 使 用 哪 种 协议 无 
用 户 某 些 方案 访问 资源 时 需要 的 用 户 名 匿名 
密码 用 户 名 后 面 可 能 要 包含 的 密码 ， 中 间 由 冒号 (:) 分 隔 <E-mail 地 址 > 
主机 资源 宿主 服务 器 的 主机 名 或 点 分 IP 地 址 无 
端口 资源 宿主 服务 器 正在 监听 的 端口 号 。 很 多 方案 都 有 默认 端 每 个 方案 特有 
口号 (HTTP 的 默认 端口 号 为 80) 
路 径 服务 器 上 资源 的 本 地 名 ， 由 一 个 斜 枉 〈/) 将 甚 与 前 面 的 无 


URL 组 件 分 隔 开 来 。 路 径 组 件 的 语法 是 与 服务 器 和 方案 有 

关 的 (本章 稍 后 会 讲 到 URL BEA SEL JEEP AREE, di 

段 都 可 以 有 其 特有 的 组 件 。) 

参数 0 某 些 方案 会 用 这 个 组 件 来 指定 答 入 参数 。 参 数 为 名 / 值 对 。 x 

URL 中 可 以 包含 多 个 参数 字段 ， 它 们 相互 之 间 以 及 与 路 径 

的 其 余部 分 之 间 用 分 号 C) 208 

查询 。 某 些 方案 会 用 这 个 组 件 传递 参数 以 激活 应 用 程序 (比如 数 x 
据 库 、 公 告 板 、 搜 索引 擎 以 及 其 他 因特网 网 关 )。 查 询 组 
件 的 内 容 没有 通用 格式 。 用 字符 “?” 将 其 与 URL 的 其 余 
部 分 分 隔 开 来 

片段 。 一 小 片 或 一 部 分 资源 的 名 字 。 引 用 对 象 时 ， 不 会 将 frag 字 x 
段 传送 给 服务 器 ， 这 个 字段 是 在 客户 端 内 部 使 用 的 。 通 过 
字符 “#” 将 其 与 URL 的 其 余部 分 分 隔 开 来 
















































































比如 ， 我 们 来 看 看 URL: http://www.joes-hardware.com:80/index.html, EN # http, 
主机 为 www.joes-hardware.com， 端 口 是 80， 路 径 为 /index.html。 


2.2.1 方案 一 一 使 用 什么 协议 

方案 实际 上 是 规定 如 何 访问 指定 资源 的 主要 标识 符 ， 它 会 告诉 负责 解析 URL 的 应 用 
程序 应 该 使 用 什么 协议 。 在 我 们 这 个 简单 的 HTTP URL 中 所 使 用 的 方案 就 是 http, 
方案 组 件 必须 以 一 个 字母 符号 开始 ， 由 第 一 个 “:” 符 号 将 其 与 URL 的 其 余部 分 分 
隔 开 来 。 方 案 名 是 大 小 写 无 关 的 ， 因 此 URL “http://www.joes-hardware.com” 和 
“HTTP://www.joes-hardware.com” 是 等 价 的 。 





URL 与 资源 | 29 








26 














24 








2.2.2 主机 与 端口 

要 想 在 因特网 上 找到 资源 ， 应 用 程序 要 知道 是 哪 台 机 器 装载 了 资源 ， 以 及 在 那 台 机 
器 的 什么 地 方 可 以 找到 能 对 目标 资源 进行 访问 的 服务 器 。URL Hy x pL v 2H (ETE 
供 了 这 两 组 信息 。 

主机 组 件 标识 了 因特网 上 能 够 访问 资源 的 宿主 机 器 。 可 以 用 上 述 主机 名 (www.joes- 


hardware.com) ， 或 者 IP 地 址 来 表示 主机 名 。 比 如 ， 下 面 两 个 URL 就 指向 同一 个 党 
源 一 一 第 一 个 URL 是 通过 主机 名 ， 第 二 个 是 通过 IP 地 址 指向 服务 器 的 : 

















http://www.joes-hardware.com:80/index.html 
http://161.58.228.45:80/1ndex.html 


端口 组 件 标识 了 服务 器 正在 监听 的 网 络 端口 。 对 下 层 使 用 了 TCP 协议 的 HTTP 来 
说 ， 默 认 端 口号 为 80。 





2.23 ”用户 名 和 密码 


更 有 趣 的 组 件 是 用 户 和 密码 组 件 。 很 多 服务 器 都 要 求 输入 用 户 名 和 密码 才 会 允许 用 
户 访 问 数据 。FTP 服务 器 就 是 这 样 一 个 常见 的 实例 。 这 里 有 儿 个 例子 : 


ftp://ftp.prep.ai.mit.edu/pub/gnu 
ftp://anonymous Q ftp.prep.ai.mit.edu/pub/gnu 
ftp://aAnonymous:my. passwd Gftp.prep.ai.mit.edu/pub/gnu 


http://joe:joespasswd ? www.joes-hardware.com/sales info.txt 


第 一 个 例子 没有 用 户 或 密码 组 件 ， 只 有 标准 的 方案 、 主 机 和 路 径 。 如 果 某 应 用 程 
序 使 用 的 URL 方案 要 求 输入 用 户 名 和 密码 ， 比 如 FTP,， 但 用 户 没有 提供 ， 它 通常 
会 插入 一 个 默认 的 用 户 名 和 密码 。 比 如 ， 如 有 果 向 浏览 器 提供 一 个 FTP URL， 但 没 
有 指定 用 户 名 和 密码 ， 它 就 会 插入 anonymous (匿名 用 户 ) 作为 你 的 用 户 名 ， 并 发 
送 一 个 默认 的 密码 (Internet Explorer 会 发 送 IEUser，Netscape Navigator 则 会 发 送 


mozilla) 。 





第 二 个 例子 显示 了 一 个 指定 为 anonymous 的 用 户 名 。 这 个 用 户 名 与 主机 组 件 组 合 在 
一 起 ， 看 起 来 就 像 E-mail 地址 一 样 。 字 符 “@” 将 用 户 和 密码 组 件 与 URL 的 其 余 
分 分 隔 开 来 。 


在 第 三 个 例子 中 ， 指 定 了 用 户 名 (anonymous) 和 密码 (my_passwd)， 两 者 之 间 由 
字符 “:” 分 隔 。 





nk 
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2.2.4 路径 
URL 的 路 径 组 件 说 明了 资源 位 于 服务 器 的 什么 地 方 。 路 径 通常 很 像 一 个 分 级 的 文件 
系统 路 径 。 比 如 : 


http://www.joes-hardware.com:80/seasonal/index-fall.html 


这 个 URL 中 的 路 径 为 /seasonal/index-fall.html， 很 像 UNIX 文件 系统 中 的 文件 系统 
路 径 。 路 径 是 服务 器 定位 资源 时 所 需 的 信息 。 “可 以 用 字符 “/” 将 HTTP URL 的 路 
径 组 件 划分 成 一 些 路 径 段 (path segment). (还 是 与 UNIX 文件 系统 中 的 文件 路 径 类 
似 ) 。 每 个 路 径 段 都 有 自己 的 参数 (param) 组 件 。 


2.2.5 ”参数 
对 很 多 方案 来 说 ， 只 有 简单 的 主机 名 和 到 达 对 象 的 路 径 是 不 够 的 。 除 了 服务 器 正在 
监听 的 端口 ， 以 及 是 否 能 够 通过 用 户 名 和 密码 访问 资源 外 ， 很 多 协议 都 还 需要 更 多 
的 信息 才能 工作 。 


负责 解析 URL 的 应 用 程序 需要 这 些 协议 参数 来 访问 资源 。 否 则 ， 另 一 端的 服务 器 可 
能 就 不 会 为 请 求 提 供 服务 ， 或 者 更 糟糕 的 是 ， 提 供 错误 的 服务 。 比 如 ， 像 FTP 这 样 
的 协议 ， 有 两 种 传输 模式 ， 二 进 制 和 文本 形式 。 你 肯定 不 希望 以 文本 形式 来 传送 二 
进 制 图 片 ， 这 样 的 话 ， 二 进 制 图 片 可 能 会 变 得 一 团 粳 。 


为 了 向 应 用 程序 提供 它们 所 需 的 输入 参数 ， 以 便 正 确 地 与 服务 器 进行 交互 ，URL 中 
有 一 个 参数 组 件 。 这 个 组 件 就 是 URL 中 的 名 值 对 列表 ， 由 字符 “;” 将 其 与 URL 的 
其 余部 分 (以 及 各 名 值 对 ) 分 隔 开 来 。 它 们 为 应 用 程序 提供 了 访问 资源 所 需 的 所 有 
附加 信息 。 比 如 : 

















ftp://prep.ai.mit.edu/pub/gnu;type=d 
在 这 个 例子 中 ， 有 一 个 参数 type=d， 参 数 名 为 type， 值 为 d。 


如 前 所 述 ，HTTP URL 的 路 径 组 件 可 以 分 成 若干 路 径 段 。 每 段 都 可 以 有 自己 的 参 
数 。 比如 : 
http://www.joes-hardware.com/hammers;sale-false/index.html;graphics-true 


这 个 例子 就 有 两 个 路 径 段 ，hammers 和 index.html, hammers 路 径 段 有 参数 sale， 其 值 
为 false, index.html 段 有 参数 graphics， 其 值 为 true。 














注 2: 这 是 一 种 简化 的 说 法 。 在 18.2 市 我 们 会 看 到 ， 路 径 并 不 总 能 为 资源 定位 提供 足够 的 信息 。 有 时 服务 
器 还 需要 其 他 的 信息 。 

















URL 与 资源 | 31 








28 














29 








2.2.0 查询 字符 串 

很 多 资源 ， 比 如 数据 库 服务 ， 都 是 可 以 通过 提问 题 或 进行 查询 来 缩小 所 请 求 资 源 类 
型 范围 的 。 

假设 Joe 的 五 金 商店 在 数据 库 中 维护 着 一 个 未 售 货 物 的 清单 ， 并 可 以 对 清单 进行 查 
询 ， 以 判断 产品 是 否 有 货 ， 那 就 可 以 用 下 列 URL 来 查询 Web 数据 库 网 关 ， 看 看 编 
号 为 12731 的 条 目 是否 有 货 : 





http://www.joes-hardware.com/inventory-check.cgi?itemz12731 


这 个 URL 的 大 部 分 都 与 我 们 见 过 的 其 他 URL 类 似 。 只 有 问号 (2) 右边 的 内 容 是 
新 出 现 的 。 这 部 分 被 称 为 查询 (query) 组 件 。URL 的 查询 组 件 和 标识 网 关 资 源 的 
URL 路 径 组 件 一 起 被 发 送 给 网 关 资 源 。 基 本 上 可 以 将 网 关 当 作 访 问 其 他 应 用 程序 的 
访问 点 (第 8 童 会 对 网 关 进 行 详细 的 讨论 )。 


图 2-2 中 有 一 个 作为 Joe 的 五 金 商店 清单 查询 应 用 程序 的 网 关 的 服务 器 ， 在 这 个 
例子 中 向 此 服务 器 发 送 了 一 个 查询 组 件 。 查 询 的 目的 是 检查 清单 中 是 否 有 尺寸 为 
large、 颜 色 为 blue 的 条 目 12731. 








http://www.joes-hardware.com/inventory-check.cgi?item=12731&color=blue&size=large 


" item-12731&color-blue&size-large 

















客户 端 服务 器 











2-2 ”发 送 给 网 关 应 用 程序 的 URL 查询 组 件 

在 本 章 稍 后 会 看 到 ， 除 了 有 些 不 合 规则 的 字符 需要 特别 处 理 之 外 ， 对 查询 组 件 的 格 
式 没 什么 要 求 。 按 照常 规 ， 很 多 网 关 都 希望 查询 字符 串 以 一 系列 “名 / 值 ” 对 的 形 
式 出 现 ， 名 值 对 之 间 用 字符 “&” 分 隔 : 





http://www.joes-hardware.com/inventory-check.cgi?itemz12731 &color-blue 


在 这 个 例子 中 ， 查 询 组 件 有 两 个 名 / 值 对 : item212731 和 color=blue, 








2.2.7 片段 

有 些 资 源 类 型 ， 比 如 HIML， 除 了 资源 级 之 外 ， 还 可 以 做 进一步 的 划分 。 比 如 ， 对 
一 个 带 有 章节 的 大 型 文本 文档 来 说 ， 资 源 的 URL 会 指向 整个 文本 文档 ， 但 理想 的 情 
况 是 ， 能 够 指定 资源 中 的 那些 章节 。 

为 了 引用 部 分 资源 或 资源 的 一 个 片段 ，URL 支持 使 用 片段 (frag) 组 件 来 表示 一 个 
资源 内 部 的 片段 。 比 如 ，URL 可 以 指向 HTML 文档 中 一 个 特定 的 图 片 或 小 市 。 


FREE URL 的 右手 边 ， 最 前 面 有 一 个 字符 “#”。 比 如 : 








http://www.joes-hardware.com/tools.htmlzdrills 


在 这 个 例子 中 ， 片 段 drills 引用 了 Joe 的 五 金 商店 Web 服务 器 上 页 面 /tools.html 中 的 一 
个 部 分 。 这 部 分 的 名 字 叫 做 drills, 


HTTP 服务 器 通常 只 处 理 整 个 对 象 ， 而 不 是 对 象 的 片段 ， 客 户 端 不 能 将 片段 传送 给 
服务 器 (参见 图 2-3)。 浏 览 器 从 服务 器 获得 了 整个 资源 之 后 ， 会 根据 片段 来 显示 你 
感 兴趣 的 那 部 分 资源 。 





http://www.joes-hardware.com/tools.html#drills 
l (a) 用 户 选 择 了 指向 http:Wwww.joes-hardware.comy/tools.html#drills 的 链接 


(片段 并 不 发 送 给 服务 器 ) 
(b) 浏览 器 向 http://www.joes-hardware.com/tools.html 发 起 请 求 














特 网 





www.joes-hardware.com 
(c) 服务 器 返回 整个 HTML JUR 









































Drills 


Joe's Hardware has a complete line of cordless and corded drills, as well as the latestin 
plutonium-powered atomic drils, for those big around the house jobs. 





| 浏览 器 向 下 滚动 ， 从 名 为 drills 的 片段 处 开始 显示 
Boe | | | lem 


(d) 浏览 器 从 名 为 arills 的 片 民 处 开始 显示 HTML 页面 











2-3 ”服务 器 处 理 的 是 整个 对 象 ， 因 此 URL 片段 仅 由 客户 端 使 用 




















注 3: 在 15.9 节 会 看 到 HTTP Agent 代理 可 能 会 请 求 某 个 字 节 范围 内 的 对 象 ， 但 在 URL 片段 的 上 下 文中 
服务 器 会 发 送 整 个 对 象 ， 由 Agent 代理 将 片段 标识 符 应 用 于 资源 。 
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2.3 URL 快 捷 方 式 


Web 客户 端 可 以 理解 并 使 用 几 种 URL 快捷 方式 。 相 对 URL 是 在 某 资 源 内 部 指定 一 
个 资源 的 便捷 缩 略 方式 。 很 多 浏览 器 还 支持 URL 的 “自动 扩展 ”， 也 就 是 用 户 输入 
URL 的 一 个 关键 (可 记忆 的 ) 部 分 ， 然 后 由 浏览 器 将 其 余部 分 填充 起 来 。2.3.2 市 
对 此 进行 了 解释 。 


2.3.1 相对 URL 


URL 有 两 种 方式 : 绝对 的 和 相对 的 。 到 目前 为 止 ， 我 们 只 见 过 绝对 URL。 绝 对 
URL 中 包含 有 访问 资源 所 需 的 全 部 信息 。 


另 一 方面 ， 相 对 URL 是 不 完整 的 。 要 从 相对 URL r, 部 信息 
就 必须 相对 于 另 一 个 ， 被 称 为 其 基础 (base) 的 URL 进行 解析 。 


相对 URL 是 URL 的 一 种 便捷 缩 略 记 法 。 如 果 你 手工 写 过 HTML 的 话 ， 可 能 就 会 发 
现 相 对 URL 是 多 么 便捷 了 。 例 2-1 是 一 个 嵌入 了 相对 URL 的 HTML 文档 实例 。 


例 2-1 带 有 相对 URL WJ HTML 代码 片段 


<HTML> 

<HEAD><TITLE>Joe's Tools</TITLE></HEAD> 

«BODY» 

«H1» Tools Page «/H1» 

«H2» Hammers «H2» 

«P» Joe's Hardware Online has the largest selection of «A HREF-"./ 
hammers.html"-hammers 

«/A» on earth. 

</BODY> 

</HTML> 








例 2-1 是 资源 : 
http://www.joes-hardware.com/tools.html 


的 HTML 文档 。 





在 这 个 HTML 文档 中 有 一 个 包含 了 URL ./hammers.html 的 超 链接 。 这 个 URL 看 起 
来 是 不 完整 的 ， 但 实际 上 是 个 合法 的 相对 URL。 可 以 相对 于 它 所 在 文档 的 URL 对 
其 进行 解释 ; 在 这 个 例子 中 ， 就 是 相对 于 Joe 的 五 金 商 店 Web 服务 器 的 资源 /tools. 
html, 














使 用 缩 略 形式 的 相对 URL iE, HTML 的 编写 者 就 可 以 省 略 URL 中 的 方案 、 主 机 
和 其 他 一 些 组 件 了 。 这 些 组 件 可 以 从 它们 所 属 资 源 的 基础 URL 中 推导 出 来 。 其 他 资 
源 的 URL 也 可 以 用 这 种 缩 略 形式 来 表示 。 
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在 例 2-1 中 ， 基 础 URL 为 : 
http://www.Joes-hardware.com/tools.html 


用 这 个 URL 作为 基础 ， 可 以 推导 出 缺失 的 信息 。 我 们 知道 资源 名 为 ./hammers.html, 
但 并 不 知道 方案 或 主机 名 是 什么 。 通 过 这 个 基础 URL， 可 以 推导 出 方案 为 http, € 
机 为 www.joes-hardware.com。 图 2-4 对 此 进行 了 说 明 。 








基础 URL 相对 URL 


[nttp :/ www.joes-hardqware .corhMtools .html ./hammers.html 


























Y Y Y 
http://www.joes-hardware.com/hammers.html 
新 的 绝对 URL 














2-4 使 用 基础 URL 


相对 URL 只 是 URL 的 片段 或 一 小 部 分 。 处 理 URL 的 应 用 程序 (比如 浏览 器 ) 要 能 
够 在 相对 和 绝对 URL 之 间 进 行 转 换 。 


还 需要 注意 的 是 ， 相 对 URL 为 保持 一 组 资源 〈 比 如 一 些 HTML 页 面 ) 的 可 移植 性 
提供 了 一 种 便捷 方式 。 如 果 使 用 的 是 相对 URL， 就 可 以 在 搬移 一 组 文档 的 同时 ， 仍 
然 保 持 链接 的 有 效 性 ， 因 为 相对 URL 都 是 相对 于 新 基础 进行 解释 的 。 这 样 就 可 以 实 
现在 其 他 服务 器 上 提供 镜像 内 容 之 类 的 功能 











1. 基础 URL 


转换 处 理 的 第 一 步 就 是 找到 基础 URL。 基 础 URL 是 作为 相对 URL 的 参考 点 使 用 
的 。 可 以 来 自 以 下 几 个 不 同 的 地 方 。 


。 在 资源 中 显 式 提供 
有 些 资源 会 显 式 地 指定 基础 URL。 比 如 ，HTML 文档 中 可 能 会 包含 一 个 定义 了 
基础 URL " HTML 标记 <BAsEB>， 通 过 它 来 转换 那个 HTML 文档 中 的 所 有 相对 
URL, 


。 封装 资源 的 基础 URL 
如 果 在 一 个 没有 显 式 指 定 基 础 URL 的 资源 中 发 现 了 一 个 相对 URL， 如 例 2-1 所 
示 ， 可 以 将 它 所 属 资源 的 URL 作为 基础 (如 例 中 所 示 )。 


° 没有 基础 URL 


在 某 些 情况 下 ， 没 有 基础 URL。 这 通常 意味 着 你 有 一 个 绝对 URL， 但 有 时 可 能 
只 是 一 个 不 完整 或 损坏 了 的 URL。 
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2. 解析 相对 引用 





前 面 我 们 介绍 了 URL 的 基本 组 件 和 语法 。 要 将 相对 URL 转换 为 一 个 绝对 URL, F 
一 步 要 做 的 就 是 将 相对 URL 和 基础 URL 划分 成 组 件 段 。 

实际 上 ， 这样 只 是 在 解析 URL， 但 这 种 做 法 会 将 其 划分 成 一 个 个 组 件 ， 因 此 通常 会 
称 作 分 解 (decomposing) URL。 只 要 将 基础 和 相对 URL 划分 成 了 组 件 ， 就 可 以 应 


用 图 2-5 中 的 算法 来 完成 转换 了 。 
































已 解析 好 的 相对 URL， 
{方案 =x， 用 户 =y,，.…} 





























继承 基础 URL 的 方案 
检查 用 户 、 密 码 、 
主机 和 端口 组 件 























都 为 空 
继承 基础 URL、 用 户 、 
密码 、 主 机 和 端口 
检查 路 径 组 件 














默认 为 基础 URL 











E 
URL 是 绝对 的 


ap S 
的 非 空 路 径 















UH B Se 检查 参数 组 件 





继承 基础 URL 路 径 





要 处 理 绝对 路 径 











的 非 空 路 径 


从 在 处 理 的 路 径 中 删除 
“和 ”<seg> /.” 








继承 基础 URL 参 数 
检查 查询 组 件 

















继承 基础 URL 查 询 




















参数 











2 将 继承 的 组 件 和 相对 组 件 组 合成 新 的 绝对 URL E 














2-5 将 相对 URL 转换 成 绝对 URL 


这 个 算法 将 一 个 相对 URL 转换 成 了 其 绝对 模式 ， 之 后 就 可 以 用 它 来 引用 资源 了 。 这 
个 算法 最 初 是 在 RFC 1808 中 制定 的 ， 后 来 被 合并 到 了 RFC 2396 m, 


可 以 对 例 2-1 中 的 ./hammers.html 实例 使 用 图 





2-5 中 描述 的 算法 。 





(1) 路 径 为 ./hammers.html, miti URL 为 http://www.joes-hardware.com/tools.html。 

(2) 方案 为 空 ， 沿 着 图 表 的 左 半 边 向 下 处 理 ， 继 承 基础 URL 方案 (HTTP), 

(3) 至 少 一 个 组 件 非 空 ， 一 直 处 理 到 底 端 ， 继 承 主机 和 端口 组 件 。 

(4) 将 来 自 相 对 URL (路 径 : .hammers.html) 的 组 件 与 我 们 继承 来 的 组 件 (方案 : 
http， 主 机 : www.joes-hardware.com， 端 口 : 80) 合并 起 来 ， 得 到 新 的 绝对 


URL: http ://www.joes-hardware.com/hammers.html。 


2.3.2 自动 扩展 URL 

有 些 浏览 器 会 在 用 户 提 交 URL 之 后 ， 或 者 在 用 户 输入 的 时 候 尝试 着 自动 扩展 URL, 
这 就 为 用 户 提供 了 一 条 捷径 : 用户 不 需要 输入 完整 的 URL， 因 为 浏览 器 会 自动 
扩展 。 


这 些 “ 自 动 扩展 ”特性 有 以 下 两 种 方式 。 


。 主机 名 扩展 
在 主机 名 扩展 中 ， 只 要 有 些小 提示 ,浏览 器 通常 就 可 以 在 没有 帮助 的 情况 下 ， 将 
你 输入 的 主机 名 扩展 为 完整 的 主机 名 。 
比如 ， 如 果 在 地 址 栏 中 输入 yahoo， 浏 览 器 就 会 自动 在 主机 名 中 插入 www. 
和 .com， 构 建 出 www.yahoo.com。 如 果 找 不 到 与 yahoo 匹配 的 站 点 ， 有 些 浏览 
器 会 在 放弃 之 前 党 试 几 种 扩展 形式 。 浏 览 器 通过 这 些 简单 的 技巧 来 节省 你 的 时 
间 ， 减 少 找 不 到 的 可 能 。 
但 是 ， 这 些 主机 名 扩展 技巧 可 能 会 为 其 他 一 些 HTTP 应 用 程序 带 来 问题 ， 比 如 代 
理 。 第 6 章 将 详细 讨论 这 些 问 题 。 





















































。 历史 扩展 

A V, a8 FH OE 28 HH PA. URL 时 间 的 另 一 种 技巧 是 ， 将 以 前 用 户 访问 过 的 URL 
历史 存储 起 来 。 当 你 输入 URL 时 ， 它 们 就 可 以 将 你 输入 的 URL 与 历史 记录 中 
URL 的 前 级 进行 匹配 ， 并 提供 一 些 完整 的 选项 供 你 选择 。 因 此 ， 如 果 你 输入 了 
一 个 以 前 访问 过 的 URL 的 开始 部 分 ， 比 如 http:/www.joes-， 浏 览 器 就 可 能 会 建 
议 使 用 http://www.joes-hardware.com。 然 后 你 就 可 以 选择 这 个 地 址 ， 不 用 输入 完 
HAJ URL T. 





注意 ， 与 代理 共同 使 用 时 ，URL 自动 扩展 的 行为 可 能 会 有 所 不 同 。6.5.6 XE 
进行 进一步 讨论 。 
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Â P BL r= A 
2.4 各 种 令 人 头疼 的 字符 
URL 是 可 移植 的 (portable)。 它 要 统一 地 命名 因特网 上 所 有 的 资源 ， 这 也 就 意味 着 
要 通过 各 种 不 同 的 协议 来 传送 这 些 资 源 。 这 些 协 议 在 传输 数据 时 都 会 使 用 不 同 的 机 
制 ， 所 以 ， 设 计 URL, 使 其 可 以 通过 任意 因特网 协议 安全 地 传输 是 很 重要 的 。 


安全 传输 意味 着 URL 的 传输 不 能 丢失 信息 。 有 些 协议 ， 比 如 传输 电子 邮件 的 简单 邮 
件 传输 协议 (Simple Mail Transfer Protocol，SMTP)， 所 使 用 的 传输 方法 就 会 剥 去 
一 些 特定 的 字符 。“ 为 了 避 开 这 些 问题 ，URL 只 能 使 用 一 些 相 对 较 小 的 、 通 用 的 安 
全 字母 表 中 的 字符 。 


除了 希望 URL 可 以 被 所 有 因特网 协议 进行 传送 之 外 ， 设 计 者 们 还 希望 URL 也 可 供 
人 类 阅读 。 因 此 ， 即 使 不 可 见 、 不 可 打印 的 字符 能 够 穿 过 邮件 程序 ， 从 而 成 为 可 移 
植 的 ， 也 不 能 在 URL 中 使 用 。5 

URL 还 得 是 完整 的 ， 这 就 使 问题 变 得 更 加 复杂 了 。URL 的 设计 者 们 认识 到 有 时 人 们 
可 能 会 希望 URL 中 包含 除 通用 的 安全 字母 表 之 外 的 二 进 制 数据 或 字符 。 因 此 ， 需 要 
有 一 种 转 义 机 制 ， 能 够 将 不 安全 的 字符 编码 为 安全 字符 ， 再 进行 传输 。 


本 节 总 结 了 URL 的 通用 字母 表 和 编码 规则 。 


2.4.4 _URL 字 符 集 

默认 的 计算 机 系统 字符 集 通常 都 倾向 于 以 英语 为 中 心 。 从 历史 上 来 看 ， 很 多 计算 机 
应 用 程序 使 用 的 都 是 US-ASCII 字符 集 。US-ASCII 使 用 7 位 二 进 制 码 来 表示 英文 打 
字 机 提供 的 大 多 数 按键 和 少数 用 于 文本 格式 和 硬件 通知 的 不 可 打印 控制 字符 。 


由 于 US-ASCII 的 历史 悠久 ， 所 以 其 可 移植 性 很 好 。 但 是 ， 虽 然 美 国 用 户 使 用 起 来 
很 便捷 ， 它 却 并 不 支持 在 各 种 欧洲 语言 或 全 世界 数 十 亿 人 使 用 的 数 百 种 非 罗马 语言 
中 很 常见 的 变 体 字 符 。 

而 且 ， 有 些 URL 中 还 会 包含 任意 的 二 进 制 数据 。 认 识 到 对 完整 性 的 需求 之 后 ，URL 
的 设计 者 就 将 转 义 序列 集成 了 进去 。 通 过 转 义 序列 ， 就 可 以 用 US-ASCII 字符 集 的 
有 限 子 集 对 任意 字符 值 或 数据 进行 编码 了 ， 这 样 就 实现 了 可 移植 性 和 完整 性 。 


2.4.2 ”编码 机 制 
为 了 避 开 安全 字符 集 表 示 法 带 来 的 限制 ， 人 们 设计 了 一 种 编码 机 制 ， 用 来 在 URL 中 
表示 各 种 不 安全 的 字符 。 这 种 编码 机 制 就 是 通过 一 种 “ 转 义 ”表示 法 来 表示 不 安全 



















































































注 4: 这 是 由 报 文 的 7 位 二 进 制 码 编码 造成 的 。 如 果 源 端 是 以 8 位 或 更 多 位 编码 的 ,就 会 有 部 分 信息 被 剥离 。 
注 5: 不 可 打印 字符 中 包括 空格 符 (注意 ，RFC 2396 建议 应 用 程序 忽略 空格 符 )。 
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字符 的 ， 这 种 转 义 表示 法 包含 一 个 百 分 号 (%)， 后 面 跟着 两 个 表示 字符 ASCH 码 的 
十 六 进 制 数 。 


K 2-2 中 列 出 了 几 个 例子 
表 2-2 ”一些 编码 字符 示例 





字 符 ASCII 码 示例 URL 
126(0x7E) http://www.joes-hardware.com/%7Ejoe 
空格 32(0x20) http://www.joes-hardware.com/more%20tools.html 
96 37(0x25) http://www.joes-hardware.com/10094625satisfaction.html 


2.4.3 ”字符 限制 


在 URL 中 ， 有 几 个 字符 被 保留 起 来 ， 有 着 特殊 的 含义 。 有 些 字 符 不 在 定义 的 US- 
ASCI 可 打印 字符 集中 。 还 有 些 字符 会 与 其 些 因 特 网 网 关 和 协议 产生 混 请 ， 因 此 不 
赞成 使 用 。 


R 2-3 列 出 了 一 些 字符 ， 在 将 其 用 于 保留 用 途 之 外 的 场合 时 ， 要 在 URL 中 对 其 进行 
编码 。 


表 2-3 保留 及 受 限 的 字符 










































































字 符 保留 / 受 限 
% 保留 作为 编码 字符 的 转 义 标志 
/ 保留 作为 路 径 组 件 中 分 隔 路 径 段 的 定 界 符 
保留 在 路 径 组 件 中 使 用 
保留 在 路 径 组 件 中 使 用 
# 保留 作为 分 段 定 界 符 使 用 
? 呆 留 作为 查询 字符 串 定 界 符 使 用 
呆 留 作为 参数 定 界 符 使 用 
果 留 作为 方案 、 用 户 /口令 ， 以 及 主机 /端口 组 件 的 定 界 符 使 用 
$, 十 果 留 
@&= 在 某 些 方案 的 上 下 文中 有 特殊 的 含 又 ， 保 留 
JAA [1]' 由 于 各 种 传输 Agent 代理 ， 比 如 各 种 网 关 的 不 安全 处 理 ， 使 用 受 限 
go" 不 安全 ; 这 些 字符 在 URL 范围 之 外 通常 是 有 意义 的 ， 比 如 在 文档 中 对 URL 自身 























进行 定 界 (比如 http://www.joes-hardware.com)， 所 以 应 该 对 其 进行 编码 
0x00-0x1F, 0x7F ” 受 限 ， 这 些 十 六 进 制 范围 内 的 字符 都 在 US-ASCII 字符 集 的 不 可 打印 区 间 内 
>0x7F 受 限 ， 十 六 进 制 值 在 此 范围 内 的 字符 都 不 在 US-ASCII 字符 集 的 7 比特 范围 内 
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2.4.4 ”另外 一 点 说 明 

你 可 能 会 感到 奇怪 ， 为 什么 使 用 一 些 不 安全 字符 的 时 候 并 没有 发 生 什 么 不 好 的 事情 。 
比如 ， 你 可 以 访问 http://www.joes-hardware.com/~joe 上 的 Joe 主页 ， 而 无 需 对 “~” 
字符 进行 编码 。 对 某 些 传输 协议 来 说 ， 这 并 不 是 什么 问题 ， 但 对 应 用 程序 开发 人 员 
来 说 ， 对 非 安全 字符 进行 编码 仍然 是 明智 的 。 


应 用 程序 要 按照 一 定 规范 工作 。 客 户 端 应 用 程序 在 向 其 他 应 用 程序 发 送 任意 URL 之 
前 ， 最 好 把 所 有 不 安全 或 受 限 字符 都 进行 转换 “。 只 要 对 所 有 不 安全 字符 都 进行 了 编 
码 ， 这 个 URL 就 是 可 在 各 应 用 程序 之 间 共 享 的 规范 形式 ， 也 就 无 需 操心 其 他 应 用 程 
序 会 被 字符 的 任何 特殊 含义 所 迷惑 了 。 


最 适合 判断 是 否 需 要 对 字符 进行 编码 的 程序 就 是 从 用 户 处 获取 URL 的 源 端 应 用 程 
JF, URL 的 每 个 组 件 都 会 有 自己 的 安全 /不 安全 字符 ， 哪 些 字 符 是 安全 /不 安全 的 
与 方案 有 关 ， 因 此 只 有 从 用 户 那 里 接收 URL 的 应 用 程序 才能 够 判断 需要 对 哪些 字符 
进行 编码 。 

当然 ， 另 一 种 极端 的 做 法 就 是 应 用 程序 对 所 有 字符 都 进行 编码 。 尽 管 并 不 建议 这 么 
做 ， 但 也 没有 什么 强硬 且 严 格 的 规则 规定 不 能 对 那些 安全 字符 进行 编码 ;但 在 实际 
应 用 中 ， 有 些 应 用 程序 可 能 会 假定 不 对 安全 字符 进行 编码 ， 这 么 做 的 话 可 能 会 产生 
一 些 奇怪 的 破坏 性 行为 。 

有 时， 有 些 人 会 恶意 地 对 额外 的 字符 进行 编码 ， 以 绕 过 那些 对 URL 进行 模式 匹配 的 
应 用 程序 一 一 比如 ，Web 过 滤 程 序 。 对 安全 的 URL 组 件 进 行 编码 会 使 模式 匹配 程 
序 无 法 识别 出 它们 所 要 搜寻 的 模式 。 总 之 ， 解 释 URL 的 应 用 程序 必须 在 处 理 URL 
之 前 对 其 进行 解码 。 

有 些 URL 组 件 要 便于 识别 ， 并 且 必 须 由 字母 开头 ， 比 如 URL 的 方案 。 更 多 关于 不 
IH] URL 组 件 中 保留 字符 和 不 安全 字符 的 使 用 指南 请 回顾 2.2 节 7. 


25 方案 的 世界 


本 节 将 介绍 更 多 Web 常用 方案 格式 。 附 录 A 给 出 了 一 个 相当 完整 的 方案 列表 ， 及 
各 种 方案 文档 的 参考 文献 。 























ik 6: 这 里 我 们 特 指 的 是 客户 端 应 用 程序 ， 而 不 是 其 他 的 HTTP 中 间 点 ， 比 如 代理 。6.5.5 布 探讨 了 代理 和 
其 他 中 间 HTTP 应 用 程序 试图 代表 客户 端 修改 〈 比 如 编码 ) URL 时 可 能 产生 的 一 些 问题 。 
注 7: 表 2-3 列 出 了 各 种 URL 组 件 的 保留 字符 。 总 之 ， 只 应 该 对 这 些 在 传输 过 程 中 不 安全 的 字符 进行 编码 。 
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K 2-4 总 结 了 最 常见 的 一 些 方案 。 回 顾 一 下 2.2 节 有 助 于 理解 表格 中 的 语法 部 分 。 
表 2-4 ”常见 的 方案 格式 


5 E 


jü R 





http 


https 


mailto 


ftp 


rtsp, rtspu 





超 文本 传输 协议 方案 ， 除 了 没有 用 户 名 和 密码 之 外 ， 与 通用 的 URL 格式 相符 。 如 果 省 略 
了 端口 ， 就 默认 为 80。 

基本 格式 ， 

http://<host>:<port>/<path>?<query>#<frag> 

示例 : 


http://www.joes-hardware.com/index.html 








http://www.joes-hardware.com:80/index.html 


方案 https 与 方案 http 是 一 对 。 唯 一 的 区 别 在 于 方案 https 使 用 了 网 景 的 SSL，SSL 为 
HTTP 连接 提供 了 端 到 端的 加 密 机 制 。 其 语法 与 HTTP 的 语法 相同 ， 默 认 端 口 为 443 。 
基本 格式 : 

https://<host>:<port>/<path>?<query>#<frag> 

示例 : 

https://www.joes-hardware.com/secure.html 


























Mailto URL 指向 的 是 E-mail 地 址 。 由 于 E-mail 的 行为 与 其 他 方案 都 有 所 不 同 ( 它 并 不 指 
任何 可 以 直接 访问 的 对 象 )， 所 以 mailto URL 的 格式 与 标准 URL 的 格式 也 有 所 不 同 。 
因特网 E-mail 地 址 的 语法 记录 在 RFC 822 中 。 
基本 格式 : 

mailto:<RFC-822-addr-spec> 

示例 : 


mailto:joe @joes-hardware.com 








z 












































文件 传输 协议 URL. 可 以 用 来 从 FTP 服务 器 上 下 载 或 向 
上 的 目录 结构 内 容 的 列表 。 

在 Web fil URL 出 现 之 前 FTP 就 已 经 存在 了 。Web 应 用 程序 将 FTP 作为 一 种 数据 访问 方 
案 使 用 。URL 语法 遵循 下 列 通用 格式 。 

基本 格式 ， 

ftp://<user>:<password>@<host>:<port>/<path>;<params> 

示例 : 

ftp://anonymous:joe%40joes-hardware.com Q prep.ai.mit.edu:2 1/pub/gnu/ 


上 载 文 件 ， 并 获取 FTP 服务 器 
































RTSP URL 是 可 以 通过 实时 流传 输 协 议 (Real Time Streaming Protocol) 解析 的 音 /视频 
媒体 资源 的 标识 符 。 

方案 rtspu 中 的 u 表示 它 是 使 用 UDP 协议 来 获取 资源 的 。 

基本 格式 : 


rtsp://<user>:<password>@<host>:<port>/<path> 








rtspu://<user>:<password>@<host>:<port>/<path> 
示例 : 


rtsp://www.joes-hardware.com:554/interview/cto video 
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5 €* jü 述 

file 方案 file 表示 一 台 指 定 主机 (通过 本 地 磁盘 、 网 络 文 件 系统 或 其 他 一 些 文件 共享 系统 ) 
上 可 直接 访问 的 文件 。 各 字段 都 遵循 通用 格式 。 如 果 省 略 了 主机 名 ， 就 默认 为 正在 使 用 
URL 的 本 地 主机 。 
基本 格式 : 
file://<host>/<path> 
示例 : 


file://OFFICE-FS/policies/casual-fridays.doc 


news 根据 RFC 1036 的 定义 ,方案 news 用 来 访问 一 些 特定 的 文章 或 新 闻 组 。 它 有 一 个 很 独特 
的 性 质 : news URL 自身 包含 的 信息 不 足以 对 资源 进行 定位 。 
news URL 中 缺乏 到 何 处 获取 资源 的 信息 一 一 没有 提供 主机 名 或 机 器 名 称 。 从 用 户 那 里 著 
取 此 类 信息 是 解释 程序 的 工作 。 比 如 ， 在 网 景 浏览 器 的 “选项 ”(Options) 菜单 中 ， 就 可 
以 指定 自己 的 NNTP (news) 服务 器 。 这 样 ， 浏 览 器 有 了 news URL 的 时 候 就 知道 应 该 使 
] 哪 个 服务 器 了 。 

新 闻 资 源 可 以 从 多 台 服 务 器 中 获得 。 它 们 被 称 为 位 置 无 关 的 ， 因 为 对 它们 的 访问 不 依赖 
于 任何 一 个 源 服务 器 。 

news URL 中 保留 了 字符 “@”， 用 来 区 分 指向 新 闻 组 的 news URL 和 指向 特定 新 闻 文 章 的 
news URL, 

基本 格式 : 


news:«newsgroup» 






























































news:«news-article-id» 
示例 : 
news:rec.arts.startrek 









































telnet 方案 telnet 用 于 访问 交互 式 业 务 。 它 表示 的 并 不 是 对 象 自身 ， 而 是 可 通过 telnet 协议 访问 
的 交互 式 应 用 程序 (资源 )。 
基本 格式 : 
telnet://<user>:<password>@ «host»:«port»/ 
示例 : 


telnet://slurp:webhound @joes-hardware.com:23/ 


26 ”未 来 展望 


URL 是 一 种 强 有 力 的 工具 。 它 可 以 用 来 命名 所 有 现存 对 象 ， 而 且 可 以 很 方便 地 包含 
一 些 新 格式 。URL 还 提供 了 一 种 可 以 在 各 种 因特网 协议 间 共 享 的 统一 命名 机 制 。 


但 URL 并 不 完美 。 它 们 表示 的 是 实际 的 地 址 ， 而 不 是 准确 的 名 字 。 这 就 意味 着 
URL 会 告诉 你 资源 此 时 处 于 什么 位 置 。 它 会 为 你 提供 特定 端口 上 特定 服务 器 的 名 
字 ， 告 诉 你 在 何 处 可 以 找到 这 个 资源 。 这 种 方案 的 缺点 在 于 如 果 资 源 被 移 走 了 ， 
URL 也 就 不 再 有 效 了 。 那 时 ， 它 就 无 法 对 对 象 进行 定位 了 。 








如 果 有 了 对 象 的 准确 名 称 ， 则 不 论 其 位 于 何 处 都 可 以 找到 这 个 对 象 ， 那 该 多 完美 啊 。 
就 像 人 一 样 ， 只 要 给 定 了 资源 的 名 称 和 其 他 一 些 情况 ， 无 论 资源 移 到 何 处 ， 你 都 能 
够 追踪 到 它 。 


为 了 应 对 这 个 问题 ， 因 特 网 工程 任务 组 (Internet Engineering Task Force, IETF) 
已 经 对 一 种 名 为 统一 资源 名 (uniform resource name, URN) 的 新 标准 做 了 一 段 时 
间 的 研究 了 。 无 论 对 象 搬 移 到 什么 地 方 〈 在 一 个 Web 服务 器 内 或 是 在 不 同 的 Web 
服务 器 间 )，URN 都 能 为 对 象 提 供 一 个 稳定 的 名 称 。 





永久 统一 资源 定位 符 (persistent uniform resource locators, PURL) 是 用 URL 来 实 
现 URN 功能 的 一 个 例子 。 其 基本 思想 是 在 搜索 资源 的 过 程 中 引入 另 一 个 中 间 层 ， 
通过 一 个 中 间 资 源 定位 符 (resource locator) 服务 器 对 资源 的 实际 URL 进行 登记 和 
跟踪 。 客 户 端 可 以 向 定位 符 请 求 一 个 永久 URL， 定 位 符 可 以 以 一 个 资源 作为 响应 ， 
将 客户 端 重 定向 到 资源 当前 实际 的 URL 上 去 (参见 图 2-6)。 更 多 有 关 PURL 的 信 
息 ， 请 访问 http://purl.oclc.org。 








获取 http:Wpurloclc.orgy/jhardware/ 
第 一 步 : 询问 资源 解析 程序 Joe 五 金 


商店 的 URL 是 什么 。 从 解析 程序 接 
收 资源 的 当前 位 置 。 因特网 


客户 端 purl.oclc.org 








实际 的 http://www.joes-hardware.com/ 


第 二 步 : 获取 资源 实际 的 URL。 获取 http://www.joes-hardware.com/ 


Lye 


客户 端 www.joes-hardware.com 











2-6 PURL 通过 资源 定位 符 服务 器 来 命名 资源 的 当前 位 置 





如 果 不 是 现在 ， 那 是 什么 时 候 

URN 背后 的 思想 已 经 提出 一 段 时 间 了 。 实 际 上 ， 如 果 去 看 看 某 些 相关 规范 的 发 布 日 
期 ， 你 可 能 会 问 ， 为 什么 它们 现在 都 还 没有 投入 使 用 。 

从 URL 转换 成 URN 是 一 项 巨大 的 工程 。 标 准 化 工作 的 进程 很 缓慢 ， 而 且 通 常 都 有 
很 充分 的 理由 。 支 持 URN 需要 进行 很 多 改动 一 一 标准 主体 的 一 致 性 ， 对 各 种 HTTP 
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应 用 程序 的 修改 等 。 做 这 种 改动 需要 进行 大 量 的 工作 ， 而 且 很 不 幸 〈 或 者 可 能 很 幸 
运 ) 的 是 URL 还 有 很 大 的 能 量 ， 还 要 等 待 更 合适 的 时 机 才能 进行 这 种 转换 。 


在 Web 爆炸 性 增长 的 过 程 中 ， 因 特 网 用 户 一 一 包括 从 计算 机 科学 家 到 普通 因特网 用 
户 的 每 一 个 人 一 一 都 已 经 学 会 使 用 URL 了 。 在 备 受 笨拙 语法 (对 新 手 来 说 ) 和 顽固 
问题 困扰 的 同时 ， 人 们 已 经 学 会 了 如 何 使 用 URL， 以 及 如 何 对 付 它 们 的 一 些 缺 陷 。 
URL 有 一 些 限制 ,但 这 并 不 是 Web 开发 社区 所 面临 的 最 紧迫 的 问题 。 


目前 看 来 ， 在 可 预见 的 未 来 ， 因 特 网 资源 仍然 会 以 URL 来 命名 。 它 们 无 处 不 在 ， 而 
且 是 Web 的 成 功 过 程 中 一 个 非常 重要 的 部 分 。 其 他 命名 方案 想 要 取代 URL 还 要 一 
段 时 间 。 但 是 ，URL 确实 有 其 局 限 型 ， 可 能 会 出 现 新 的 标准 (可 能 就 是 URN)， 对 
这 种 标准 进行 部 署 会 解决 其 中 的 某 些 问题 。 


27 更 多 信息 


更 多 有 关 URL 的 信息 ， 请 参考 以 下 资源 。 


























° http://www.w3.org/Addressing/ 
这 是 W3C 有 关 URI 和 URL 命名 及 寻 址 的 Web 页 面 。 


° http://www ietf.org/rfc/rfc1738 
RFC 1738, T. Berners-Lee, L. Masinter 和 M. McCahill 编写 的 “Uniform Resource 
Locators (URL)”(“ 统 一 资源 定位 符 ”)。 


° http://www.ietf.org/rfc/rfc2396.txt 
RFC 2396, T. Berners-Lee, R. Fielding fll L. Masinter 编写 的 “Uniform Resource 
Identifiers (URI) : Generic Syntax" (^URI: 通用 语法 ”) 。 


° http://www .ietf.org/rfc/rfc2141.txt 
RFC 2141, R. Moats 编写 的 “URN Syntax" (“URN 语法 ”) 。 


° http://purl.oclc.org 
永久 统一 资源 定位 符 的 Web 站 点 。 


° http://www.ietf.org/rfc/rfc1808.txt 
RFC 1808, R. Fielding 编写 的 “Relative Uniform Resource Locators”(“ 相 对 统 
一 资源 定位 符 ”)。 
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如 果 说 HTTP 是 因特网 的 信人 使， 那么 HTTP RLE CARRAR T. 

1 章 说 明了 HTTP 程序 是 怎样 互相 发 送 报 文 来 完成 工作 的 。 va eL 
HTTP 报 文 有 关 的 事情 一 一 如 何 创建 报 文 ， 以 及 如 何 理解 它们 。 通 过 阅读 本 章 ， 就 
可 以 了 解 编写 自己 的 HTTP 应 用 程序 所 需 掌 所 的 大 部 分 内 容 。 具 体 来 说 ， 你 会 理解 
下 列 概念 : 









































° 报 文 是 如 何 流动 的 ; 

* HTTP 报 文 的 三 个 组 成 部 分 (起 始 行 、 首 部 和 实体 的 主体 部 分 ) ; 
° 请 求 和 响应 报 文 之 间 的 区 别 ; 

° 请 求 报 文 支持 的 各 种 功能 (方法 ) ， 

° 和 响应 报 文 一 起 返回 的 各 种 状态 码 ， 

° 各 种 各 样 的 HTTP 首部 都 是 用 来 做 什么 的 。 


3.1 RL 

HTTP 报 文 是 在 HTTP 应 用 程序 之 间 发 送 的 数据 块 。 这 些 数据 块 以 一 些 文本 形式 的 
元 信息 (meta-information) 开头 ， 这 些 信息 描述 了 报 文 的 内 容 及 含义 ， 后 面 跟着 
可 选 的 数据 部 分 。 这 些 报 文 在 客户 端 、 服 务 器 和 代理 之 间 流 动 。 术 语 “ 流 入 ”、“ 流 
出 “上游 ”及 “下 游 ” 都 是 用 来 描述 报 文 方向 的 。 





3.1.1 报 文 流入 源 端 服务 器 

HTTP 使 用 术语 流入 (inbound) 和 流出 (outbound) 来 描述 事务 处 理 (transaction) 
的 方向 。 报 文 流 入 源 端 服务 器 ， 工 作 完成 之 后 ， 会 流 回 用 户 的 Agent 代理 中 (参见 
图 3-1)。 











(流向 服务 器 ) 了 》| GET /index.html HTTP/1.0 














d^ 
代理 3 








服务 器 


HTTP/1.0 200 OK 流出 (流向 用 户 Agent 代 理 ) 
Content-type: text/html | 
































图 3-1. 报 文 流入 源 端 服务 器 并 流 回 到 客户 端 
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3.1.2. ” 报 文 向 下 游 流动 

HTTP 报 文 会 像 河 水 一 样 流动 。 不 管 是 请 求 报 文 还 是 响应 报 文 ， 所 有 报 文 都 会 向 
下 游 (downstream) 流动 (参见 图 3-2)。 所 有 报 文 的 发 送 者 都 在 接收 者 的 上 游 
(upstream)。 在 图 3-2 中 ， 对 请 求 报 文 来 说 ， 代 理 1 位 于 代理 3 的 上 游 ， 但 对 响应 
报 文 来 说 ， 它 就 位 于 代理 3 的 下 游 '。 
































没有 报 文 会 向 上 游 流动 


服务 器 











Sanne” 








~ 











3-2 ”所 有 报 文 都 向 下 游 流动 


3.2 ” 报 文 的 组 成 部 分 


HTTP 报 文 是 简单 的 格式 化 数据 块 。 看 一 下 图 3-3 给 出 的 例子 。 每 条 报 文 都 包含 一 
条 来 自 客户 端的 请 求 ， 或 者 一 条 来 自 服务 器 的 响应 。 它 们 由 三 个 部 分 组 成 : 对 报 文 
进行 描述 的 起 始 行 (start line)、 包 含 属性 的 首部 (header) 块 ， 以 及 可 选 的 、 包 含 
数据 的 主体 (body) 部 分 。 








注 1: 术语 “上 游 ” 和 “下 游 ”都 只 与 发 送 者 和 接收 者 有 关 。 我 们 无 法 区 分 报 文 是 发 送 给 源 端 服务 器 的 还 是 
发 送 给 客户 端的 ， 因 为 两 者 都 是 下 游 节点 。 
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起 始 行 |HTTP/1.0 200 OK 


v.g | Content-type: text/plain 
LI 首部 Content-length: 19 


Hi! I'm a message! 








服务 器 














3-3 HTTP 报 文 的 三 个 部 分 

起 始 行 和 首部 就 是 由 行 分 隔 的 ASCU 文本 。 每 行 都 以 一 个 由 两 个 字符 组 成 的 行 终止 
序列 作为 结束 ， 其 中 包括 一 个 回 车 符 (ASCII 码 13) 和 一 个 换行 符 (ASCI 码 10), 
这 个 行 终止 序列 可 以 写 做 CRLF。 需 要 指出 的 是 ， 尽 管 HTTP 规范 中 说 明 应 该 用 
CRLF 来 表示 行 终止 ， 但 稳健 的 应 用 程序 也 应 该 接受 单个 换行 符 作 为 行 的 终止 。 有 
些 老 的 ， 或 不 完整 的 HTTP 应 用 程序 并 不 总 是 既 发 送 回 车 符 ， 又 发 送 换行 符 。 


实体 的 主体 或 报 文 的 主体 〈 或 者 就 称 为 主体 ) 是 一 个 可 选 的 数据 块 。 与 起 始 行 和 首 
部 不 同 的 是 ， 主 体 中 可 以 包含 文本 或 二 进 制 数据 ， 也 可 以 为 空 。 


在 图 3-3 的 例子 中 ， 首 部 给 出 了 一 些 与 主体 有 关 的 信息 。content -Type 行 说 明了 
主体 是 什么 一 一 在 这 个 例子 中 ， 就 是 纯 文 本 文档 。 Content -Length 行 说 明了 主体 
有 多 大 ， 在 这 里 就 只 有 19 个 字 节 。 


3.2.1 报 文 的 语法 

所 有 的 HTTP 报 文 都 可 以 分 为 两 类 : 请 求 报 文 (request message) 和 响应 报 文 
(response message)。 请 求 报 文 会 向 Web 服务 器 请 求 一 个 动作 。 响 应 报 文 会 将 请 求 
的 结果 返回 给 客户 端 。 请 求 和 响应 报 文 的 基本 报 文 结构 相同 。 图 3-4 显示 了 获取 一 
张 GIF 图 片 所 需 的 请 求 和 响应 报 文 。 


T 





























HTTP 请 求 报 文中 
包含 命令 和 URL 





GET /specials/saw-blade.gif HTTP/1.0 
Host: www.joes-hardware.com 


v HTTP/1.0 200 OK 4 ma sssi — 
客户 端 D Content-Type: image/gif | www.joes-hardware.com 
I Content-Length: 8572 
k i HTTP 响 应 报 文中 


一 :包含 了 事务 的 结果 
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这 是 请 求 报 文 的 格式 : 


<method> <request-URL> <version> 
<headers> 


<entity-body> 
这 是 响应 报 文 的 格式 (注意 ， 只 有 起 始 行 的 语法 有 所 不 同 ) : 


<version> <status> <reason-phrase> 
<headers> 


<entity-body> 
下 面 是 对 各 部 分 的 简要 描述 。 


° 方法 (method) 
客户 端 希 望 服 务 器 对 资源 执行 的 动作 。 是 一 个 单独 的 词 ， 比 如 GET、HEAD 或 
POST。 本 章 稍 后 将 详细 介绍 方法 。 


° 请 求 URL (request-URL) 
命名 了 所 请 求 资源 ， 或 者 URL 路 径 组 件 的 完整 URL。 如 果 直 接 与 服务 器 进行 对 
ih, HX URL 的 路 径 组 件 是 资源 的 绝对 路 径 ， 通 常 就 不 会 有 什么 问题 一 一 服务 
器 可 以 假定 自己 是 URL 的 主机 /端口 。 第 2 章 详细 地 介绍 了 URL 的 语法 。 


° 版 本 (version) 
报 文 所 使 用 的 HTTP 版 本 ， 其 格式 看 起 来 是 这 样 的 : 





HTTP/<major>.<minor> 


其 中 主要 版 本 号 (major) 和 次 要 版 本 号 (minor) 都 是 整数 。 本 章 稍 后 会 详细 说 
HH HTTP 的 版 本 问题 。 


。 状态 码 (status-code) 
这 三 位 数字 描述 了 请 求 过 程 中 所 发 生 的 情况 。 每 个 状态 码 的 第 一 位 数字 都 用 于 描 
述 状态 的 一 般 类 别 (AX. “出错 ” 等 )。 本 章 稍 后 提供 了 HTTP 规范 定义 的 状 
态 码 及 其 含义 的 完整 列表 。 


° 原因 短语 (reason-phrase) 
数字 状态 码 的 可 读 版 本 ， 包 含 行 终止 序列 之 前 的 所 有 文本 。 本 章 稍 后 提供 了 
HTTP 规范 定义 的 所 有 状态 码 的 原因 短语 示例 。 原 因 短 语 只 对 人 类 有 意义 ， 因 
此 ， 比 如 说 ， 尽 管 响应 行 HTTP/1.0 200 NOT OK 和 HTTP/1.0 200 OK 中 原因 短 
语 的 含义 不 同 ， 但 同样 都 会 被 当 作成 功 指示 处 理 。 
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° 首部 (header) 
可 以 有 零 个 或 多 个 首部 ， 每 个 首部 都 包含 一 个 名 字 ， 后 面 跟着 一 个 冒号 C), A 
后 是 一 个 可 选 的 空格 ， 接 着 是 一 个 值 ， 最 后 是 一 个 CRLF。 首 部 是 由 一 个 空 行 
(CRLF) 结束 的 ， 表 示 了 首部 列表 的 结束 和 实体 主体 部 分 的 开始 。 有 些 HTTP 版 
本 ， 比 如 HITP/1.1， 要 求 有 效 的 请 求 或 响应 报 文中 必须 包含 特定 的 首部 。 本 章 
稍 后 会 探讨 各 种 HTTP 首部 。 


。 实体 的 主体 部 分 (entity-body) 
实体 的 主体 部 分 包含 一 个 由 任意 数据 组 成 的 数据 块 。 并 不 是 所 有 的 报 文 都 包含 实 
体 的 主体 部 分 ， 有 时 ， 报 文 只 是 以 一 个 CRLF 结束 。 第 15 章 详 述 了 实体 。 


图 3-5 展示 了 一 些 假想 的 请 求 和 响应 报 文 。 




















(a) 请 求 报 文 (b) 响应 报 文 
GET /test/hi-there.txt HTTP/1.1 起 始 行 | HTTP/1.0 200 OK 
Accept: text/* Content-type: text/plain 
Host: www.joes-hardware.com 首部 coli en ama 19 P 














Hi! I'm a message! 
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3-5 请求 和 响应 报 文 示例 


注意 ， 一 组 HTTP 首部 总 是 应 该 以 一 个 空 行 AA CRLF) 结束 ， 其 至 即使 没有 首 
部 和 实体 的 主体 部 分 也 应 如 此 。 但 由 于 历史 原因 ， 很 多 客户 端 和 服务 器 都 在 没有 实 
体 的 主体 部 分 时 ，( 错 误 地 ) 省 略 了 最 后 的 CRLF。 为 了 与 这 些 流行 但 不 符合 规则 的 
实现 进行 互通 ， 客 户 端 和 服务 器 都 应 该 接受 那些 没有 最 后 那个 CRLF 的 报 文 。 


3.2.2 ”起 始 行 
所 有 的 HTTP 报 文 都 以 一 个 起 始 行 作为 开始 。 请 求 报 文 的 起 始 行 说 明了 要 做 些 什么 。 
响应 报 文 的 起 始 行 说 明 发 生 了 什么 。 


1. 请 求 行 

请 求 报 文 请 求 服务 器 对 资源 进行 一 些 操作 。 请 求 报 文 的 起 始 行 ， 或 称 为 请 求 行 ， 包 
含 了 一 个 方法 和 一 个 请 求 URL， 这 个 方法 描述 了 服务 器 应 该 执行 的 操作 ， 请 求 URL 
描述 了 要 对 哪个 资源 执行 这 个 方法 。 请 求 行 中 还 包含 HTTP 的 版 本 ， 用 来 告知 服务 
器 ， 客 户 端 使 用 的 是 哪 种 HTTP。 

所 有 这 些 字 段 都 由 空格 符 分 隔 。 在 图 3-5a 中 ， 请 求 方法 为 GET， 请 求 URL 为 
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/test/hi-there.txt， 版 本 为 HTTP/1.1。 在 HTTP/1.0 之前， 并 不 要 求 请 求 行 中 包含 
HTTP 版 本 号 。 


2. 响应 行 

响应 报 文 承载 了 状态 信息 和 操作 产生 的 所 有 结果 数据 ， 将 其 返回 给 客户 端 。 响 应 报 
文 的 起 始 行 ， 或 称 为 响应 行 ， 包含 了 响应 报 文 使 用 的 HTTP 版 本 、 数 字 状 态 码 ， 以 
及 描述 操作 状态 的 文本 形式 的 原因 短语 。 

所 有 这 些 字 段 都 由 空格 符 进 行 分 隔 。 在 图 3-5b rh, HTTP 版 本 为 HTTP/1.0， 状 态 
码 为 200 (表示 成 功 ) ， 原 因 短 语 为 OK， 表 示 文 档 已 经 被 成 功 返回 了 。 在 HTTP/1.0 
之 前 ， 并 不 要 求 在 响应 中 包含 响应 行 。 


3. 方法 


请 求 的 起 始 行 以 方法 作为 开始 ， 方 法 用 来 告知 服务 器 要 做 些 什 么 。 比 如 ， 在 行 
“GET /specials/saw-blade.gif HTTP/1.0” 中 ， 方 法 就 是 GET. 














HTTP 规范 中 定义 了 一 组 常用 的 请 求 方法 。 比 如 ，GET 方法 负责 从 服务 器 获取 一 个 
文档 ，POST 方法 会 向 服务 器 发 送 需 要 处 理 的 数据 ，OPTIONS 方法 用 于 确定 Web 
服务 器 的 一 般 功 能 ， 或 者 Web 服务 器 处 理 特定 资源 的 能 力 。 

表 3-1 描述 了 7 种 这 样 的 方法 。 注 意 ， 有 些 方法 的 请 求 报 文中 有 主体 ， 有 些 则 是 无 
主体 的 请 求 。 

表 3-1 常用 的 HTTP 方 法 











方 法 Jj 述 是 否 包含 主体 
GET 从 服务 器 获取 一 份 文档 否 
HEAD 只 从 服务 器 获取 文档 的 首部 f 
POST 向 服务 器 发 送 需 要 处 理 的 数据 是 
PUT 将 请 求 的 主体 部 分 存储 在 服务 器 上 是 
TRACE 对 可 能 经 过 代理 服务 器 传送 到 服务 器 上 去 的 报 文 进行 追踪 f 
OPTIONS 决定 可 以 在 服务 器 上 执行 哪些 方法 否 
DELETE 从 服务 器 上 删除 一 份 文档 € 





并 不 是 所 有 服务 器 都 实现 了 表 3-1 列 出 的 所 有 7 种 方法 。 而 且 ， 由 于 HTTP 设计 得 
易于 扩展 ， 所 以 除了 这 些 方法 之 外 ， 其 他 服务 器 可 能 还 会 实现 一 些 自己 的 请 求 方法 。 
这 些 附加 的 方法 是 对 HTTP 规范 的 扩展 ， 因 此 被 称 为 扩展 方法 。 





4. 状态 码 
方法 是 用 来 告诉 服务 器 做 什么 事情 的 ， 状 态 码 则 用 来 告诉 客户 端 ， 发 生 了 什么 事情 。 
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状态 码 位 于 响应 的 起 始 行 中 。 比 如 ， 在 行 HTTP/1.0 200 OK 中 ， 状 态 码 就 是 200。 





客户 端 向 一 个 HTTP 服务 器 发 送 请 求 报 文 时 ,会 发 生 很 多 事情 。 幸 运 的 话 ， 请 求 会 
成 功 完成 。 但 你 不 会 总 是 那么 幸运 的 。 服 务 器 可 能 会 告诉 你 无 法 找到 所 请 求 的 资产 ， 
你 没有 访问 资源 的 权限 ， 或 者 资源 被 移 到 了 其 他 地 方 。 


状态 码 是 在 每 条 响应 报 文 的 起 始 行 中 返回 的 。 会 返回 一 个 数字 状态 和 一 个 可 读 的 状 
态 。 数 字 码 便于 程序 进行 差错 处 理 ， 而 原因 短语 则 更 便于 人 们 理解 。 





可 以 通过 三 位 数字 代码 对 不 同 状态 码 进行 分 类 。200 到 299 之 间 的 状态 码 表 示 成 功 。 
300 到 399 之 间 的 代码 表示 资源 已 经 被 移 走 了 。400 到 499 之 间 的 代码 表示 客户 端 
的 请 求 出 错 了 。500 到 599 之 间 的 代码 表示 服务 器 出 错 了 。 


K 3-2 列 出 了 状态 码 的 分 类 。 
表 3-2 ”状态 码 分 类 








整体 范围 已 定义 范围 分 3 
100 ~ 199 100 ~ 101 信息 提示 
200 ~ 299 200 ~ 206 成 功 
300 — 399 300 — 305 重 定向 
400 ~ 499 400 ~ 415 客户 端 错误 
500 — 599 500 — 505 服务 器 错误 


当前 的 HTTP 版 本 只 为 每 类 状态 定义 了 几 个 代码 。 随 着 协议 的 发 展 ，HTTP 规范 中 
会 正式 地 定义 更 多 的 状态 码 。 如 果 收 到 了 不 认识 的 状态 码 ， 可 能 是 有 人 将 其 作为 当 
前 协议 的 扩展 定义 的 。 可 以 根据 其 所 处 范围 ， 将 它 作为 那个 类 别 中 一 个 普通 的 成 员 
来 处 理 。 

















比如 ， 如 果 收 到 了 状态 码 SIS (ER 3-2 所 列 5XX 代码 的 已 定义 范围 之 外 ) ， 就 应 该 
认为 这 条 响应 指出 了 服务 器 的 错误 ， 这 是 5XX 报 文 的 通用 类 别 。 


表 3-3 列 出 了 部 分 最 常见 的 状态 码 。 本 章 稍 后 会 详细 解释 当前 在 用 的 所 有 HTTP 状 
态 码 。 








表 3-3 ”常见 状态 码 








状 态 m 原因 短语 & x 
200 OK 成 功 。 请 求 的 所 有 数据 都 在 响应 主体 中 
401 Unauthorized (未 授权 ) ”需要 输入 用 户 名 和 密码 
404 Not Found (未 找到 ) 服务 器 无 法 找到 所 请 求 URL 对 应 的 资源 





5. 原因 短语 

原因 短语 是 响应 起 始 行 中 的 最 后 一 个 组 件 。 它 为 状态 码 提 供 了 文本 形式 的 解释 。 比 
如 ， 在 行 HTTP/1.0 200 OK rh, OK 就 是 原因 短语 。 

原因 短语 和 状态 码 是 成 对 出 现 的 。 原 因 短 语 是 状态 码 的 可 读 版 本 ， 应 用 程序 开发 者 
将 其 传送 给 用 户 ， 用 以 说 明 在 请 求 期 间 发 生 了 什么 情况 。 

HTTP 规范 并 没有 提供 任何 硬性 规定 ， 要 求 原因 短语 以 何 种 形式 出 现 。 本 章 稍 后 列 
出 了 状态 码 和 一 些 建议 使 用 的 原因 短语 。 





6. 版 本 号 
版 本 号 会 以 HTTP/x.y 的 形式 出 现在 请 求 和 响应 报 文 的 起 始 行 中 。 为 HTTP 应 用 程序 
提供 了 一 种 将 自己 所 遵循 的 协议 版 本 告知 对 方 的 方式 。 


使 用 版 本 号 的 目的 是 为 使 用 HTTP 的 应 用 程序 提供 一 种 线索 ， 以 便 互 相 了 解 对 方 的 
能 力 和 报 文 格式 。 在 与 使 用 HTTP 1.1 的 应 用 程序 进行 通信 的 HTTP 1.2 应 用 程序 应 
该 知道 ， 它 不 能 使 用 任何 新 的 1.2 特性 ， 因 为 使 用 老 版 本 协议 的 应 用 程序 很 可 能 

法 实现 这 些 特 性 。 


版 本 号 说 明了 应 用 程序 支持 的 最 高 HTTP 版 本 。 但 HTTP/1.0 应 用 程序 在 解释 包含 
HTTP/1.1 的 响应 时 ， 会 认为 这 个 响应 是 个 1.1 响应 ， 而 实际 上 这 只 是 响应 应 用 程序 
所 使 用 的 协议 等 级 ， 在 这 些 情 况 下 ， 版 本 号 会 在 应 用 程序 之 间 造 成 误解 ”。 


注意 ， 版 本 号 不 会 被 当 作 小数 来 处 理 。 版 本 中 的 每 个 数字 (比如 HTTP/1.0 中 的 1 
和 0) 都 会 被 当 作 一 个 单独 的 数字 来 处 理 。 因 此 ， 在 比较 HTTP 版 本 时 ， 每 个 数字 
都 必须 单独 进行 比较 ， 以 便 确定 哪个 版 本 更 高 。 比 如 ，HTTP/2.22 就 比 HTTP/2.3 的 
版 本 要 高 ， 因 为 22 比 3 大 。 

















3.2.3 首部 
前 一 小 节 的 重点 是 请 求 和 响应 报 文 的 第 一 行 (方法 、 状 态 码 、 原 因 短语 和 版 本 号 ) 。 
跟 在 起 始 行 后 面 的 就 是 零 个 、 一 个 或 多 个 HTTP 首部 字段 (参见 图 3-5), 


HTTP 首部 字段 向 请 求 和 响应 报 文中 添加 了 一 些 附加 信息 。 本 质 上 来 说 ， 它 们 只 是 一 
些 名 / 值 对 的 列表 。 比 如 ， 下 面 的 首部 行 会 向 content -Length 首部 字段 赋值 19: 











Content-length: 19 











= 


¿E 2: http://httpd.apache.org/docs-2.0/misc/known_client_problems.html 上 有 更 多 在 Apache 与 客户 端 之 间 出 
此 问题 的 案例 。 
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1. 首部 分 类 
HTTP 规范 定义 了 几 种 首部 字段 。 应 用 程序 也 可 以 随意 发 明 自 己 所 用 的 首部 。HTTP 
首部 可 以 分 为 以 下 几 类 。 


。 通用 首部 
既 可 以 出 现在 请 求 报 文中 ， 也 可 以 出 现在 响应 报 文中 。 


。 请 求 首部 
提供 更 多 有 关 请 求 的 信息 。 


。 响应 首部 
提供 更 多 有 关 响 应 的 信息 。 


` 实体 首部 
描述 主体 的 长 度 和 内 容 ， 或 者 资源 自身 。 


。 扩展 首部 
规范 中 没有 定义 的 新 首部 。 


每 个 HTTP 首部 都 有 一 种 简单 的 语法 : 名 字 后 面 跟着 冒号 〈 : ) ， 然 后 跟 上 可 选 的 空 
格 ， 再 跟 上 字段 值 ， 最 后 是 一 个 CRLF。 表 3-4 列 出 了 一 些 常 见 的 首部 实例 。 


表 3-4 ”常见 的 首部 实例 








首部 实例 Ho xh 
Date:Tue,30ct 1997 02:16:03 GMT 服务 器 产生 响应 的 日 期 
Content-length:15040 实体 的 主体 部 分 包含 了 15 040 字 节 的 数据 
Content-type:image/gif 实体 的 主体 部 分 是 一 个 GIF 图 片 

















Accept: image/gif, image/jpeg, text/html 客户 端 可 以 接收 GEF 图 片 和 JPEG 图 片 以 及 HTML 


2. 首部 延续 行 

将 长 的 首部 行 分 为 多 行 可 以 提高 可 读 性 ， 多 出 来 的 每 行 前 面 至 少 要 有 一 个 空格 或 制 
表 符 (tab)。 

例如 : 


HTTP/1.0 200 OK 
Content-Type: image/gif 
Content-Length: 8572 





Server: Test Server 
Version 1.0 


在 这 个 例子 中 ， 响 应 报 文 里 包含 了 一 个 server 首部 ， 其 值 被 划分 成 了 多 个 延续 行 。 
该 首部 的 完整 值 为 Test Server Version 1.0. 


本 章 稍 后 将 简要 介绍 所 有 的 HTTP 首部 。 附 录 C 提供 了 所 有 首部 更 为 详细 的 参考 。 


3.2.4 实体 的 主体 部 分 
HTTP 报 文 的 第 三 部 分 是 可 选 的 实体 主体 部 分 。 实 体 的 主体 是 HTTP 报 文 的 负荷 。 
就 是 HTTP 要 传输 的 内 容 。 


HTTP 报 文 可 以 承载 很 多 类 型 的 数字 数据 : 图片、 视频 、HTML 文档 、 软 件 应 用 程 
序 、 信 用 卡 事 务 、 电 子 邮 件 等 。 


3.2.5 版 本 0.9 的 报 文 
HTTP 版 本 0.9 是 HTTP 协议 的 早期 版 本 。 是 当今 HTTP 所 拥有 的 请 求 及 响应 报 文 
的 鼻祖 ， 但 其 协议 要 简单 得 多 (参见 图 3-6)。 








m 


L1 D| GET /specials/saw-blade.gif » j @ j 
Ta OET EETAS. ad 





























图 3-6 HTTP/0.9 事务 

HTTP/0.9 报 文 也 由 请 求 和 响应 组 成 ， 但 请 求 中 只 包含 方法 和 请 求 URL， 响 应 中 只 
包含 实体 。 它 没有 版 本 信息 〈 它 是 第 一 个 ， 而 且 是 当时 唯一 的 版 本 ) ， 没 有 状态 码 或 
原因 短语 ， 也 没有 首部 。 
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但 这 种 简单 协议 无 法 提供 更 多 的 灵活 性 ， 也 无 法 实现 本 书 中 描述 的 大 部 分 HTTP Fe 
性 和 应 用 。 这 里 对 其 进行 简要 的 描述 ， 是 因为 仍然 有 一 些 客户 端 、 服 务 器 和 其 他 应 
用 程序 在 使 用 这 个 协议 ， 应 用 程序 的 编写 者 应 该 清楚 它 的 局 限 性 。 





33 方法 

现在 ， 我 们 对 前 面 在 表 3-1 中 列 出 的 一 些 基本 HTTP 方法 进行 更 为 深入 的 讨论 。 注 
意 ， 并 不 是 每 个 服务 器 都 实现 了 所 有 的 方法 。 如 果 一 台 服 务 器 要 与 HTTP 1.1 兼容 ， 
那么 只 要 为 其 资源 实现 GET 方法 和 HEAD 方法 就 可 以 了 。 


即使 服务 器 实现 了 所 有 这 些 方法 ， 这 些 方法 的 使 用 很 可 能 也 是 受 限 的 。 例 如 ， 支 持 
DELETE 方法 或 PUT 方法 〈 本 节 稍 后 介绍 ) 的 服务 器 可 能 并 不 希望 任何 人 都 能 够 删 
除 或 存储 资源 。 这 些 限制 通常 都 是 在 服务 器 的 配置 中 进行 设置 的 ， 因 此 会 随 着 站 点 
和 服务 器 的 不 同 而 有 所 不 同 。 


























3.3.1 安全 方法 
HTTP 定义 了 一 组 被 称 为 安全 方法 的 方法 。GET 方法 和 HEAD 方法 都 被 认为 是 安全 
的 ， 这 就 意味 着 使 用 GET x HEAD 方法 的 HTTP 请 求 都 不 会 产生 什么 动作 。 


不 产生 动作 ， 在 这 里 意味 着 HTTP 请 求 不 会 在 服务 器 上 产生 什么 结果 。 例 如 ， 你 在 
Joe 的 五 金 商 店 购物 时 ， 点 击 了 “提交 购买 ”按钮 。 点 击 按钮 时 会 提交 一 个 带 有 信 
用 卡 信息 的 POST 请 求 ( 稍 后 讨论 )， 那 么 在 服务 器 上 ， 就 会 为 你 执行 一 个 动作 。 在 
这 种 情况 下 ， 为 购买 行为 支付 信用 卡 就 是 所 执行 的 动作 。 


安全 方法 并 不 一 定 是 什么 动作 都 不 执行 的 (实际 上 ， 这 是 由 Web 开发 者 决定 的 )。 
使 用 安全 方法 的 目的 就 是 当 使 用 可 能 引发 某 一 动作 的 不 安全 方法 时 ， 允 许 HTTP 应 
用 程序 开发 者 通知 用 户 。 在 Joe 的 五 金 商店 的 例子 中 ， 你 的 Web 浏览 器 可 能 会 弹出 
一 条 警告 消息 ， 说 明 你 正在 用 不 安全 的 方法 发 起 请 求 ， 这 样 可 能 会 在 服务 器 上 3 引发 
一 些 事 件 ( 比 如 用 你 的 信用 卡 支 付费 用 )。 











3.3.2 GET 

GET 是 最 常用 的 方法 。 通 常用 于 请 求 服务 器 发 送 某 个 资源 。HTTP/1.1 要 求 服务 器 
实现 此 方法 。 图 3-7 显示 了 一 个 例子 ， 在 这 个 例子 中 ， 客 户 端 用 GET 方法 发 起 了 一 
次 HTTP 请 求 。 
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请 求 报 文 


GET /seasonal/index-fall.html HTTP/1.1 
Host: www.joes-hardware.com 
Accept: * 

















? 
: 响应 报 文 á 
Á HTTP/1.1 200 OK 
` Content-Type: text/html 
xn. N Context-Length: 617 p 
Z PU À www.joes-hardware.com 


<HTML> " 
«HEAD»«TITLE»Joe0s Special Offers </TITLE> 

















3-7 GET 示例 


3.3.3 HEAD 

HEAD 方法 与 GET 方法 的 行为 很 类 似 ， 但 服务 器 在 响应 中 只 返回 首部 。 不 会 返回 实 
体 的 主体 部 分 。 这 就 允许 客户 端 在 未 获取 实际 资源 的 情况 下 ， 对 资源 的 首部 进行 检 
查 。 使 用 HEAD， 可 以 ; 








。 在 不 获取 资源 的 情况 下 了 解 资 源 的 情况 〈 比 如 ， 判 断 甚 类 型 ) ; 
。 通过 查看 响应 中 的 状态 码 ， 看 看 某 个 对 象 是 否 存在 ， 
。 通过 查看 首部 ， 测 试 资源 是 否 被 修改 了 。 


服务 器 开发 者 必须 确保 返回 的 首部 与 GET 请 求 所 返回 的 首部 完全 相同 。 遵 循 
HTTP/1.1 规范 ， 就 必须 实现 HEAD 方法 。 图 3-8 显示 了 实际 的 HEAD 方法 。 








请 求 报 文 





HEAD /seasonal/index-fall.html HTTP/1.1 
Host: www.joes-hardware.com 








Accept Ro > 
, 响应 报 文 
4 HTTP/1.1 200 OK 
` Content-Type: text/html 
客户 端 9 dad DN www.joes-hardware.com 








没有 实体 的 主体 部 分 











3-8 HEAD 示例 


3.3.4 PUT 


Ej GET 从 服务 器 读 取 文档 相反 ，PUT 方法 会 向 服务 器 写 入 文档 。 有 些 发 布 系统 允 
许 用 户 创建 Web 页 面 ， 并 用 PUT 直接 将 其 安装 到 Web 服务 器 上 去 (参见 图 3-9)。 
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请 求 报 文 


PUT /product-list.txt HTTP/1.1 
Host: www.joes-hardware.com 
Content-type: text/plain 
Content-length: 34 





Updated product list coming soon! Y MS i 


u 4 | u x 


Joe f 响应 报 文 www.joes-hardware.com 服务 器 更 新 /创建 
资源 /product-list. 














HTTP/1.1 201 Created 





Location: http://www. joes-hardware.com/product-list.txt txt， 并 将 其 写 入 
Content-Type: text/plain 自己 的 磁盘 


Context-Length: 47 








http://www.joes-hardware.com/product-list.txt 
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图 3-9 PUT 示例 

PUT 方法 的 语义 就 是 让 服务 器 用 请 求 的 主体 部 分 来 创建 一 个 由 所 请 求 的 URL 命名 
的 新 文档 ， 或 者 ， 如 果 那 个 URL 已 经 存在 的 话 ， 就 用 这 个 主体 来 替代 它 。 

因为 PUT 允许 用 户 对 内 容 进 行 修改 ， 所 以 很 多 Web 服务 器 都 要 求 在 执行 PUT 之 
前 ， 用 密码 登录 。 在 第 12 章 中 可 以 读 到 更 多 有 关 密 码 认证 的 内 容 。 





3.3.5 POST 

POST 方法 起 初 是 用 来 向 服务 器 输入 数据 的 *。 实 际 上 ， 通 常会 用 它 来 支持 HTML 
的 表单 。 表 单 中 填 好 的 数据 通常 会 被 送 给 服务 器 ， 然 后 由 服务 器 将 其 发 送 到 它 要 去 
的 地 方 ( 比 如 ， 送 到 一 个 服务 器 网 关 程 序 中 ， 然 后 由 这 个 程序 对 其 进行 处 理 )。 图 
3-10 显示 了 一 个 用 POST 方法 发 起 HTTP 请 求 向 服务 器 发 送 表 单数 据 一 一 的 客 
户 端 。 


























3.3.6 TRACE 

客户 端 发 起 一 个 请 求 时 ， 这 个 请 求 可 能 要 穿 过 防火 墙 、 代 理 、 网 关 或 其 他 一 些 应 用 
程序 。 每 个 中 间 节 点 都 可 能 会 修改 原始 的 HTTP R. TRACE 方法 允许 客户 端 在 
最 终 将 请 求 发 送 给 服务 器 时 ， 看 看 它 变 成 了 什么 样子 。 


TRACE 请 求 会 在 目的 服务 器 端 发 起 一 个 “ 环 回 ”诊断 。 行 程 最 后 一 站 的 服务 器 会 
弹 回 一 条 TRACE 响应 ， 并 在 响应 主体 中 携带 它 收 到 的 原始 请 求 报 文 。 这 样 客户 端 
就 可 以 查看 在 所 有 中 间 HTTP 应 用 程序 组 成 的 请 求 / 响 应 链 上 ， 原 始 报 文 是 否 ， 以 
及 如 何 被 毁坏 或 修改 过 (参见 图 3-11), 











注 3: POST 用 于 向 服务 器 发 送 数据 。PUT 用 于 向 服务 器 上 的 资源 (例如 文件 ) 中 存储 数据 。 
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Joe's Inventory Check 


Check Item 
mm | 











allel 


[Ene INE E 





请 求 报 文 


POST /inventory-check.cgi HTTP/1.1 
Host: www.joes-hardware.com 
Content-type: text/plain 
Content-length: 48 


item=bandsaw 2647. 


浏览 器 将 数据 插入 


报 文 实体 的 主体 中 

















响应 报 文 


4 


YES! 





HTTP/1.1 200 OK 
Context-length: 37 





Content-type: text/plain 


The bandsaw model 2647 is in stock! 


www.joes-hardware.com 


| 


"item- bandsaw 2647" 








N 





CGI 程序 














3-10 POST 示例 














Host: www.joes-hardware.com 


ERES 

请 求 报 广 TRACE /product-list.txt HTTP/1.1 
TRACE /product-list.txt HTTP/1.1 Host: www. joes-hardware.com 
Accept: 





Accept: 
Via: 1.1 proxy3.company.com 























4 
































客户 端 | 代理 l. www.joes-hardware.com 
向 应 报 文 
HTTP/1.1 200 OK HTTP/1.1 200 OK 
Content-type: text/plain Content-type: text/plain 
Content-length: 96 Content-length: 96 
Via: 1.1 proxy3.company.com 
4 TRACE /product-list.txt HTTP/1.1 
TRACE /product-list.txt HTTP/1.1 Host: www.joes-hardware.com 
Host: www.joes-hardware.com Accept: * 
Accept: * Via: 1.1 proxy3.company.com 
Via: 1.1 proxy3.company.com 
通过 对 实体 部 分 检查 ， 客 户 端 可 以 看 出 这 条 请 求 被 升级 成 了 协议 版 本 1.1。 
升级 的 同时 还 添加 了 几 个 额外 的 请 求 首部 。 
3-11 TRACE 示例 





HTTP 报 文 


29 











56 














57 








TRACE 方法 主要 用 于 诊断 ， 也 就 是 说 ， 用 于 验证 请 求 是 否 如 愿 穿 过 了 请 求 / 响应 
链 。 它 也 是 一 种 很 好 的 工具 ， 可 以 用 来 查看 代理 和 其 他 应 用 程序 对 用 户 请 求 所 产生 
效果 。 


尽管 TRACE 可 以 很 方便 地 用 于 诊断 ， 但 它 确实 也 有 缺点 ， 它 假定 中 间 应 用 程序 对 
各 种 不 同类 型 请 求 (不 同 的 方法 一 -GET、HEAD、POST 等 ) 的 处 理 是 相同 的 。 
很 多 HTTP 应 用 程序 会 根据 方法 的 不 同 做 出 不 同 的 事情 一 一 比如 ， 代 理 可 能 会 将 
POST 请 求 直接 发 送 给 服务 器 ， 而 将 GET 请 求 发 送 给 另 一 个 HTTP 应 用 程序 (比如 
Web 缓存 ) 。TRACE 并 不 提供 区 分 这 些 方 法 的 机 制 。 通 常 ， 中 间 应 用 程序 会 自行 决 
定 对 TRACE 请 求 的 处 理 方式 。 


TRACE 请 求 中 不 能 带 有 实体 的 主体 部 分 。TRACE 响应 的 实体 主体 部 分 包含 了 响应 
服务 器 收 到 的 请 求 的 精确 副本 。 




















3.3.7 OPTIONS 

OPTIONS 方法 请 求 Web 服务 器 告知 其 支持 的 各 种 功能 。 可 以 询问 服务 器 通常 支持 
哪些 方法 ， 或 者 对 其 些 特殊 资源 支持 哪些 方法 。( 有 些 服 务 器 可 能 只 支持 对 一 些 特 殊 
类 型 的 对 象 使 用 特定 的 操作 ) 。 

这 为 客户 端 应 用 程序 提供 了 一 种 手段 ， 使 其 不 用 实际 访问 那些 资源 就 能 判定 访问 各 
种 资源 的 最 优 方 式 。 图 3-12 显示 了 一 个 使 用 OPTIONS 方法 的 请 求 。 








请 求 报 文 


OPTIONS * HTTP/1.1 
Host: www.joes-hardware.com 















































Accept: * 
A 由 于 请 求 的 是 可 为 所 有 资 
源 使 用 的 选项 ， 所 以 服务 
器 仅 返回 了 它 所 支持 的 可 
q me 通用 于 各 种 资源 的 方法 。 
客户 端 HTTP/1.1 200 OK www.joes-hardware.com 


Allow: GET, POST, PUT, OPTIONS 
Context-length: O 




















3-12 OPTIONS 示例 


3.3.8 DELETE 

顾名思义 ，DELETE 方法 所 做 的 事情 就 是 请 服务 器 删除 请 求 URL 所 指定 的 资源 。 
但 是 ， 客 户 端 应 用 程序 无 法 保证 删除 操作 一 定 会 被 执行 。 因 为 HTTP 规范 允许 服务 
器 在 不 通知 客户 端的 情况 下 撤销 请 求 。 图 3-13 显示 了 一 个 DELETE 方法 实例 。 
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请 求 报 文 


DELETE /product-list.txt HTTP/1.1 
Host: www.joes-hardware.com 














u 响应 报 文 i 





客户 端 HTTP/1.1 200 OK www.joes-hardware.com ”从 服务 器 磁 
Content-Type: text/plain 盘 中 删除 文件 





Content-Length: l 
ontent-Length: 54 product-list.txt 

















eA P I have your delete request 
客 户 端 认为 资 will take time to E c du 
源 已 经 被 删除 了 








图 3-13 DELETE 示例 


3.3.9 扩展 方法 

HTTP 被 设计 成 字段 可 扩展 的 ， 这 样 新 的 特性 就 不 会 使 老 的 软件 失效 了 。 扩 展 方法 
指 的 就 是 没有 在 HTTP/1.1 规范 中 定义 的 方法 。 服 务 器 会 为 它 所 管理 的 资源 实现 一 
些 HTTP 服务 ， 这 些 方法 为 开发 者 提供 了 一 种 扩展 这 些 HTTP 服务 能 力 的 手段 。 表 
3-5 列 出 了 一 些 常 见 的 扩展 方法 实例 。 这 些 方法 就 是 WebDAV HTTP 扩展 (参见 第 
19 章 ) 包含 的 所 有 方法 ， 这 些 方法 有 助 于 通过 HTTP 将 Web 内 容 发 布 到 Web 服务 
器 上 去 。 


表 3-5 Web 发布 扩展 方法 示例 
































5 š Ho xk 

LOCK 允许 用 户 “ 锁 定 ”资源 一 一 比如 ， 可 以 在 编辑 某 个 资源 的 时 候 将 其 锁定 ， 
以 防 别人 同时 对 其 进行 修改 

MKCOL 允许 用 户 创建 资源 

COPY 便于 在 服务 器 上 复制 资源 

MOVE 在 服务 器 上 移动 资源 











并 不 是 所 有 的 扩展 方法 都 是 在 正式 规范 中 定义 的 ， 认 识 到 这 一 点 很 重要 。 如 果 你 定 
义 了 一 个 扩展 方法 ， 很 可 能 大 部 分 HTTP 应 用 程序 都 无 法 理解 。 同 样 ， 你 的 HTTP 
应 用 程序 也 可 能 会 遇 到 一 些 其 他 应 用 程序 在 用 的 ， 而 它 并 不 理解 的 扩展 方法 。 


在 这 些 情况 下 ， 最 好 对 扩展 方法 宽容 一 些 。 如 果 能 够 在 不 破坏 端 到 端 行为 的 情况 下 
将 带 有 未 知 方法 的 报 文 传递 给 下 游 服务 器 ， 代 理应 尝试 传 递 这 些 报 文 。 如 果 可 能 破 
坏 端 到 端 行为 则 应 以 501 Not Implemented (无 法 实现 ) 状态 码 进行 响应 。 最 好 按 惯 
例 “ 对 所 发 送 的 内 容 要 求 严 一 点 ， 对 所 接收 的 内 容 宽容 一 些 ” 来 处 理 扩展 方法 (UPA 
及 一 般 的 HTTP 扩展 ) 。 
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3.4 状态 码 


如 前 面 的 表 3-2 所 示 ，HTTP 状态 码 被 分 成 了 五 大 类 。 本 节 对 这 五 类 HTTP 状态 码 
中 的 每 一 类 都 进行 了 总 结 。 


状态 码 为 客户 端 提供 了 一 种 理解 事务 处 理 结 果 的 便捷 方式 。 尽 管 并 没有 实际 的 规范 
对 原因 短语 的 确切 文本 进行 说 明 ， 本 节 还 是 列 出 了 一 些 原 因 短 语 示例 。 我 们 所 列 的 
是 HTTP/1.1 规范 推荐 使 用 的 原因 短语 。 




















3.4.1 100 ~ 199 一 一 信息 性 状态 


HTTP/1.1 向 协议 中 引入 了 信息 性 状态 码 。 这 些 状态 码 相 对 较 新 ， 关 于 其 复杂 性 和 感 
知 价值 存在 一 些 和 争论 ， 而 受到 限制 。 表 3-6 列 出 了 已 定义 的 信息 性 状态 码 。 


表 3-6 ”信息 性 状态 码 及 原因 短语 


X dS 码 原因 短语 £ xX 
100 Continue 说 明 收 到 了 请 求 的 初始 部 分 ， 请 客户 端 继续 。 发 送 了 这 个 状态 码 
之 后 ， 服 务 器 在 收 到 请 求 之 后 必须 进行 响应 。 更 多 信息 请 参见 附 
K C 中 的 Expect 首部 介绍 
101 Switching Protocols ”说 明 服务 器 正在 根据 客户 端的 指定 ， 将 协议 切换 成 Upaate 首部 
所 列 的 协议 



































100 Continue 状态 码 尤 其 让 人 糊涂 。 它 的 目的 是 对 这 样 的 情况 进行 优化 : HTTP 客 
户 端 应 用 程序 有 一 个 实体 的 主体 部 分 要 发 送 给 服务 器 ， 但 希望 在 发 送 之 前 查看 一 下 
服务 器 是 否 会 接受 这 个 实体 。 这 可 能 会 给 Vedi 因此 在 这 里 
进行 了 比较 详细 〈 它 如 何 与 客户 端 、 服 务 器 和 代理 进行 通信 ) 的 讨论 。 





1. 客户 端 与 100 Continue 

如 果 客 户 端 在 向 服务 器 发 送 一 个 实体 ， 并 且 愿 意 在 发 送 实体 之 前 等 待 100 Continue 
响应 ， 那 么 ， 客 户 端 就 要 发 送 一 个 携带 了 值 为 100 Continue 的 Expect 请 求 首部 
(参见 附录 C)。 如 果 客 户 端 没有 发 送 实 体 ， 就 不 应 该 发 送 100 Continue Expect 首 
部 ， 因 为 这 样 会 使 服务 器 误 以 为 客户 端 要 发 送 一 个 实体 。 


从 很 多 方面 来 看 ，100 Continue 都 是 一 种 优化 。 客 户 端 应 用 程序 只 有 在 避免 向 服务 
器 发 送 一 个 服务 器 无 法 处 理 或 使 用 的 大 实体 时 ， 才 应 该 使 用 100 Continue。 


由 于 起 初 对 100 Continue 状态 存在 一 些 困惑 〈 而 且 以 前 有 些 实现 在 这 里 出 过 问题 ) , 
因此 发 送 了 值 为 100 Continue 的 Expect 首部 的 客户 端 不 应 该 永远 在 那儿 等 待 服务 
器 发 送 100 Continue 响应 。 超 时 一 定时 间 之 后 ， 客 户 端 应 该 直接 将 实体 发 送出 去 。 
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实际 上 ， 客 户 端 程序 的 实现 者 也 应 该 做 好 应 对 非 预 期 100 Continue 响应 的 准备 (这 
很 烦人 ， 但 确实 如 此 )。 有 些 出 错 的 HTTP 应 用 程序 会 不 合 时 宜 地 发 送 这 个 状态 码 。 


2. 服务 器 与 100 Continue 

如 果 服 务 器 收 到 了 一 条 带 有 值 为 100 Continue 的 Expect 首部 的 请 求 ， 它 会 用 100 
Continue 响应 或 一 条 错误 码 来 进行 响应 〈 参 见 表 3-9)。 服 务 器 永远 也 不 应 该 向 没有 
发 送 100 Continue 期 望 的 客户 端 发 送 100 Continue 状态 码 。 但 如 前 所 述 ， 有 些 出 错 
的 服务 器 可 能 会 这 么 做 。 


如 果 出 于 某 种 原因 ， 服 务 器 在 有 机 会 发 送 100 Continue 响应 之 前 就 收 到 了 部 分 (或 
全 部 ) 的 实体 ， 就 说 明 客 户 端 已 经 决定 继续 发 送 数 据 了 ， 这 样 ， 服 务 器 就 不 需要 
发 送 这 个 状态 码 了 。 但 服务 器 读 完 请 求 之 后 ， 还 是 应 该 为 请 求 发 送 一 个 最 终 状 态 码 
( 它 可 以 跳 过 100 Continue RÆ). 

最 后 ， 如 果 服 务 器 收 到 了 带 有 100 Continue 期 望 的 请 求 ， 而 且 它 决定 在 读 取 实 体 的 
主体 部 分 之 前 (比如 ， 因 为 出 错 而 ) 结束 请 求 ， 就 不 应 该 仅仅 是 发 送 一 条 响应 并 关 
闭 连接 ， 因 为 这 样 会 妨碍 客户 端 接收 响应 (参见 4.7.4 节 )。 








3. 代理 与 100 Continue 


如 果 代 理 从 客户 端 收 到 了 一 条 带 有 100 Continue 期 望 的 请 求 ， 它 需要 做 几 件 事 
情 。 如 果 代 理 知 道 下 一 跳 服 务 器 (在 第 6 章 中 讨论 ) 是 HTTP/1.1 兼容 的 ， 或 者 并 
不 知道 下 一 跳 服务 器 与 哪个 版 本 兼容 ， 它 都 应 该 将 Expect 首部 放 在 请 求 中 向 下 
转发 。 如 果 它 知道 下 一 跳 服 务 器 只 能 与 HTTP/1.1 之 前 的 版 本 兼容 ， 就 应 该 以 417 
Expectation Failed 错误 进行 响应 。” 


如 果 代理 决定 代表 与 HTTP/1.0 或 之 前 版 本 兼容 的 客户 端 ， 在 其 请 求 中 放 入 Expect 
首部 和 100 Continue 值 ， 那 么 ，( 如 果 它 从 服务 器 收 到 了 100 Continue 响应 ) 它 就 
不 应 该 将 100 Continue 响应 转发 给 客户 端 ， 因 为 客户 端 可 能 不 知道 该 拿 它 怎么 办 。 
代理 维护 一 些 有 关 下 一 跳 服务 器 及 其 所 支持 的 HTTP 版 本 的 状态 信息 (至 少 要 维护 
那些 最 近 收 到 过 请 求 的 服务 器 的 相关 状态 ) 是 有 好 处 的 ， 这 样 它们 就 可 以 更 好 地 处 
理 收 到 的 那些 带 有 100 Continue 期 望 的 请 求 了 。 








3.4. 200 -~ 299 一 一 成 功 状 态 码 
客户 端 发 起 请 求 时 ， 这 些 请 求 通常 都 是 成 功 的 。 服 务 器 有 一 组 用 来 表示 成 功 的 状态 
码 ， 分 别 对 应 于 不 同类 型 的 请 求 。 表 3-7 列 出 了 已 定义 的 成 功 状 态 码 。 


























注 4: 还 有 一 种 合理 的 方法 ， 是 向 客户 端 先 返回 100 Continue， 在 向 服务 器 转发 请 求 时 ， 删 掉 Expect 首部 。 
( 译 者 注 ) 
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表 3-7 成 功 状态 码 和 原因 短语 





状态 码 原因 短语 £ xX 
200 OK 请 求 没 问题 ， 实 体 的 主体 部 分 包含 了 所 请 求 的 资源 
201 Created 用 于 创建 服务 器 对 象 的 请 求 〈 比 如 ，PUT)。 响 应 的 实体 主体 部 分 中 


应 该 包含 各 种 引用 了 已 创建 的 资源 的 URL，Location 首部 包含 的 
则 是 最 具体 的 引用 。 更 多 有 关 Location 首部 的 信息 参见 表 3-21。 
服务 器 必须 在 发 送 这 个 状态 码 之 前 创建 好 对 象 


202 Accepted 请 求 已 被 接受 ,但 服务 器 还 未 对 其 执行 任何 动作 。 不 能 保证 服务 器 会 
完成 这 个 请 求 ， 这 只 是 意味 着 接受 请 求 时 ， 它 看 起 来 是 有 效 的 。 
服务 器 应 该 在 实体 的 主体 部 分 包含 对 请 求 状态 的 描述 ， 或许 还 应 该 有 
对 请 求 完成 时 间 的 估计 (或 者 包含 一 个 指针 ， 指 向 可 以 获取 此 信息 的 












































位 置 ) 
203 ”Non-Authoritative 实体 首部 (更 多 有 关 实 体 首部 的 信息 参见 3.5.4 市 ) 包含 的 信息 不 是 
Information 来 自 于 源 端 服务 器 ， 而 是 来 自 资源 的 一 份 副本 。 如 果 中 间 节 点 上 有 一 





份 资源 副本 ， 但 无 法 或 者 没有 对 它 所 发 送 的 与 资源 有 关 的 元 信息 ( 首 
部 ) 进行 验证 ， 就 会 出 现 这 种 情况 。 
这 种 响应 码 并 不 是 非 用 不 可 的 ， 如 果实 体 首部 来 自 源 端 服务 器 ， 响 应 
为 200 状态 的 应 用 程序 就 可 以 将 其 作为 一 种 可 选项 使 用 

204 No Content 响应 报 文中 包含 若干 首部 和 一 个 状态 行 ， 但 没有 实体 的 主体 部 分 。 主 
要 用 于 在 浏览 器 不 转 为 显示 新 文档 的 情况 下 ， 对 其 进行 更 新 (比如 刷 
新 一 个 表单 页 面 ) 


































































































205 Reset Content 另 一 个 主要 用 于 浏览 器 的 代码 。 负 责 告 知 浏览 器 清除 当前 页 面 中 的 所 
有 HTML 表单 元 素 
206 Partial Content 成 功 执行 了 一 个 部 分 或 Range (范围 ) 请 求 。 稍 后 我 们 会 看 到 ， 客 








户 端 可 以 通过 一 些 特殊 的 首部 来 获取 部 分 或 某 个 范围 内 的 文档 一 一 这 
个 状态 码 就 说 明 范 围 请 求 成 功 了 。 更 多 有 关 Range 首部 的 内 容 参 见 
15.9 T, 
206 响应 中 必须 包含 Content-Range. Date 以 及 ETag 或 Content - 
Location 首部 























3.4.3 300- 399 一 一 重 定向 状态 码 


重 定向 状态 码 要 么 告知 客户 端 使 用 替代 位 置 来 访问 他 们 所 感 兴趣 的 资源 ， 要 么 就 提 
供 一 个 替代 的 响应 而 不 是 资源 的 内 容 。 如 果 资 源 已 被 移动 ， 可 发 送 一 个 重 定向 状态 
码 和 一 个 可 选 的 Location 首部 来 告知 客户 端 资 源 已 被 移 走 ， 以 及 现在 可 以 在 哪里 
找到 它 (参见 图 3-14)。 这 样 ， 浏 览 器 就 可 以 在 不 打扰 使 用 者 的 情况 下 ， 透 明 地 转 
入 新 的 位 置 了 。 














请 求 报 文 


GET /pet-products.txt HTTP/1.1 
Host: www.joes-hardware.com 














Accept: * > 
Lla 响应 报 广 


à cai ; 
^k Fi HTTP/1.1 301 Moved Permanentl www.joes-hardware.com 


Location: Re enoom ng one 
Content-length: 56 


Content-type: text/plain 





Please go to our partner site, 
www. gentle-grooming.com 


请 求 报 文 


GET / HTTP/1.1 
Host: www.gentle-grooming.com 
Accept: * 


L.l. | 响应 报 文 


客户 端 HTTP/1.1 200 OK www.gentle-grooming.com 
I Content-type: text/html 
Content-length: 3307 




































































图 3-14 ”将 请 求 重 定向 到 新 的 位 置 


可 以 通过 某 些 重 定向 状态 码 对 资源 的 应 用 程序 本 地 副本 与 源 端 服务 器 上 的 资源 进行 
验证 。 比 如 ，HTTP 应 用 程序 可 以 查看 其 资源 的 本 地 副本 是 否 仍然 是 最 新 的 ， 或 者 
在 源 端 服务 器 上 资源 是 否 被 修改 过 。 图 3-15 显示 了 一 个 这 样 的 例子 。 客 户 端 发 送 了 
一 个 特殊 的 1£-Modified-Since 首部 ， 说 明 只 读 取 1997 年 10 月 之 后 修改 过 的 文 
档 。 这 个 日 期 之 后 ， 此 文档 并 未 被 修改 过 ， 因 此 ， 服 务 器 回 送 了 一 个 304 状态 码 ， 
而 不 是 文档 的 内 容 。 
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客户 端 上 有 以 前 请 求 过 的 http://www.joes-hardware. 
comy/seasonal/index-fall.html 的 副本 





: 请 求 报 广 
i "| GET n sa HTTP/1.1 
MS Host: www. joes-hardware.com 
客户 端 "d 

Accept: * MEM E. jc 
If-Modified-Since: Fri, Oct 3 1997 02:16:00 GMT |... 0 ^70 70 L7 














响应 报 文 


HTTP/1.1 304 Not Modified Www.joes-hardware.com 





PT 





(D Joe's Special Offers — — — — — 上 








Joe's Hardware is Ine place lo shop lor all seasons ol the year. We have 
Something for everyone In Ihe tamily, every month ot the ycar! 


* Hardware 

® Home Furnishings. | 
'* Barbecue and Picnic Supplies 
® Cookware and Kitchen Accessories | 
® Sporting Goods 

® Hobbies and Toys 


eo ñ = e 




















Bc sure to visit us at Joe's Hardware trcquently! 








从 最 后 一 次 请 求 此 文档 以 来 ， 原 始 文档 未 
被 修改 过 ， 所 以 浏览 器 显示 的 是 本 地 副本 。 








图 3-15 重 定向 为 使 用 本 地 副本 的 请 


T 
B, 


在 对 那些 包含 了 重 定向 状态 码 的 非 HEAD 请 求 进 行 响 应 时 ， 最 好 要 包含 一 





个 实体 ， 并 在 实体 中 包含 描述 信息 和 指向 (Z A) 重 定向 URL 的 链接 一 一 参见 图 


3-14 的 第 


表 3-8 


名 一 个 响应 报 文 。 表 3-8 列 ee ee 码 。 
重 定向 状态 码 与 原因 短语 


状态 码 原因 短语 £ xX 





300 


301 





Multiple Choices 客户 端 请 求 一 个 实际 指向 多 个 资源 的 URL 时 会 返回 这 个 状态 码 ， 比 
如 服务 器 上 有 某 个 HTML 文档 的 英语 和 法 语 版 本 。 返 回 这 个 代码 时 
会 带 有 一 个 选项 列表 ， 这 样 用 o 
有 多 个 版 本 可 用 时 ， 客 户 端 需要 沟通 解决 ， 更 多 与 此 有 关 的 信息 
见 第 17 章 。 服 务 器 可 以 在 Location 首部 包含 首选 URL 


Moved Permanently ”在 请 求 的 URL 已 被 移 除 时 使 用 。 响 应 的 Location 首部 中 应 该 包含 
资源 现在 所 处 的 URL 















































状态 码 原因 短语 含 义 
302 Found 与 301 REB; 但 是 ， 客 户 端 应 该 使 用 Location 首部 给 出 的 
URL 来 临时 定位 资源 。 将 来 的 请 求 仍 应 使 用 老 的 URL 
303 See Other 告知 客户 端 应 该 用 另 一 个 URL 来 获取 资源 。 新 的 URL 位 于 响应 报 文 


的 Location 首部 。 其 主要 目的 是 允许 POST 请 求 的 响应 将 客户 端 
定向 到 某 个 资源 上 去 


304 Not Modified 客户 端 可 以 通过 所 包含 的 请 求 首部 ， 使 其 请 求 变 成 有 条 件 的 。 更 多 有 
关 条 件 首部 的 内 容 请 参见 第 3 章 。 如 果 客 户 端 发 起 了 一 个 条 件 GET 
请 求 ， 而 最 近 资 源 未 被 修改 的 话 ， 就 可 以 用 这 个 状态 码 来 说 明 资 源 未 
被 修改 。 带 有 这 个 状态 码 的 响应 不 应 该 包含 实体 的 主体 部 分 


305 Use Proxy 用 来 说 明 必 须 通 过 一 个 代理 来 访问 资源 ， 代 理 的 位 置 由 Location 
首部 给 出 。 很 重要 的 一 点 是 ， 客 户 端 是 相对 某 个 特定 资源 来 解析 这 
条 响应 的 ， 不 能 假定 所 有 请 求 ， 甚 至 所 有 对 持 有 所 请 求 资源 的 服务 器 
的 请 求 都 通过 这 个 代理 进行 。 如 果 客 户 端 错误 地 让 代理 介入 了 某 条 请 
求 ， 可 能 会 引发 破坏 性 的 行为 ， 而 且 会 造成 安全 漏洞 


前 未 使 用 


与 301 状态 码 类 似 ， 但 客户 端 应 该 使 用 Location 首部 给 出 的 URL 
来 临时 定位 资源 。 将 来 的 请 求 应 该 使 用 老 的 URL 













































































306 (未 使 用 ) 


| 由 

















307 Temporary Redirect 





MR 3-8 中 ， 你 可 能 已 经 注意 到 302. 303 和 307 状态 码 之 间 存 在 一 些 交 叉 。 这 些 状 
态 码 的 用 法 有 着 细微 的 差别 ， 大 部 分 差别 都 源 于 HTTP/1.0 和 HTTP/1.1 应 用 程序 对 
这 些 状态 码 处 理 方式 的 不 同 。 


当 HTTP/1.0 客户 端 发 起 一 个 POST 请 求 ， 并 在 响应 中 收 到 302 重 定向 状态 码 时 ， 
它 会 接受 Location 首部 的 重 定向 URL， 并 向 那个 URL 发 起 一 个 GET 请 求 (而 不 
会 像 原 始 请 求 中 那样 发 起 POST 请 求 ) 。 








HTTP/1.0 服务 器 希望 HTTP/1.0 客户 端 这 么 做 一 一 如 果 HTTP/1.0 服务 器 收 到 来 自 
HTTP/1.0 客户 端的 POST 请 求 之 后 发 送 了 302 状态 码 ， 服 务 器 就 期 望 客户 端 能 够 接 
受 重 定向 URL， 并 向 重 定向 的 URL 发 送 一 个 GET 请 求 。 


问题 出 在 HTTP/1.1。HTTP/1.1 规范 使 用 303 状态 码 来 实现 同样 的 行为 (服务 器 发 
送 303 状态 码 来 重 定向 客户 端的 POST 请 求 ， 在 它 后 面 跟 上 一 个 GET 请 求 ) 。 








为 了 避 开 这 个 问题 ，HTTP/1.1 规范 指出 ， 对 于 HTTP/1.1 客户 端 ， 用 307 状态 码 取 
代 302 状态 码 来 进行 临时 重 定向 。 这 样 服务 器 就 可 以 将 302 状态 码 保留 起 来 ， 为 
HTTP/1.0 客户 端 使 用 了 。 
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这 样 一 来 ， 服 务 器 要 选择 适当 的 重 定 向 状态 码 放 人 重 定向 响应 中 发 送 ， 就 需要 查看 
客户 端的 HTTP 版 本 了 。 





3.4.4 400 ~ 499 一 一 客户 端 错误 状态 码 
有 了 时 客户 端 会 发 送 一 些 服务 器 无 法 处 理 的 东西 ， 比 如 格式 错误 的 请 求 报 文 ， 或 者 最 
常见 的 是 ， 请 求 一 个 不 存在 的 URL, 





浏览 网 页 时 ， 我 们 都 看 到 过 臭名 昭著 的 404 Not Found 错误 码 一 一 这 只 是 服务 器 在 
告诉 我 们 ， 它 对 我 们 请 求 的 资源 一 无 所 知 。 


o 户 端 i 览 器 来 处 理 的 ， 其 至 不 会 打扰 到 你 。 只 有 少量 错误 ， 比 如 
4， 还 是 会 穿 过 浏览 器 来 到 用 户 面前 。 表 3-9 显示 了 各 种 客户 端的 错误 状态 码 。 


表 3-9 客户 端 错误 状态 码 及 原因 短语 
























































状态 码 原因 短语 含 义 

400 Bad Request 用 于 告知 客户 端 它 发 送 了 一 个 错误 的 请 求 

401 Unauthorized 与 适当 的 首部 一 同 返回 ， 在 这 些 首部 中 请 求 客 户 端 在 获取 对 资源 
的 访问 权 之 前 ， 对 自己 进行 认证 。 更 多 有 关 认 证 的 内 容 请 参见 
12.15 

402 Payment Required 现在 这 个 状态 码 还 未 使 用 ， 但 已 经 被 保留 ， 以 作 未 来 之 用 

403 Forbidden 用 于 说 明 请 求 被 服务 器 拒绝 了 。 如 果 服 务 器 想 说 明 为 什么 拒绝 请 


























求 ， 可 以 包含 实体 的 主体 部 分 来 对 原因 进行 描述 。 但 这 个 状态 码 通 
常 是 在 服务 器 不 想 说 明 拒绝 原因 的 时 候 使 用 的 


404 Not Found 用 于 说 明 服务 器 无 法 找到 所 请 求 的 URL。 通 常会 包含 一 个 实体 ， 以 
便 客户 端 应 用 程序 显示 给 用 户 看 


405 Method Not Allowed 发 起 的 请 求 中 带 有 所 请 求 的 URL 不 支持 的 方法 时 ， 使 用 此 状态 码 。 
应 该 在 响应 中 包含 Allow 首部 ， 以 告知 客户 端 对 所 请 求 的 资源 可 以 
使 用 哪些 方法 。 更 多 有 关 allow 首部 的 信息 请 参见 3.5.4 节 


406 NOot Acceptable 客户 端 可 以 指定 参数 来 说 明 它 们 愿意 接收 什么 类 型 的 实体 。 服 务 器 
没有 与 客户 端 可 接受 的 URL 相 匹 配 的 资源 时 ， 使 用 此 代码 。 通 常 ， 
服务 器 会 包含 一 些 首部 ， 以 便 客 户 端 弄 清楚 为 什么 请 求 无 法 满足 。 
更 多 信息 请 参见 第 17 章 




















































































































407 Proxy Authentication 与 401 状态 码 类 似 ， 但 用 于 要 求 对 资源 进行 认证 的 代理 服务 器 
Required 
408 Request Timeout 如 果 客 户 端 完成 请 求 所 花 的 时 间 太 长 ， 服 务 器 可 以 回 送 此 状态 码 ， 











并 关闭 连接 。 超 时 时 长 随 服务 器 的 不 同 有 所 不 同 ， 但 通常 对 所 有 的 
合法 请 求 来 说 ， 都 是 够 长 的 

409 Contlict 用 于 说 明 请 求 可 能 在 资源 上 引发 的 一 些 冲 突 。 服 务 器 担心 请 求 会 引 
发 冲突 时 ， 可 以 发 送 此 状态 码 。 响 应 中 应 该 包含 描述 冲突 的 主体 
























































状态 码 原因 短语 含 义 
410 Gone 与 404 类 似 ， 只 是 服务 器 曾经 拥有 过 此 资源 。 主 要 用 于 Web 站 点 
的 维护 ， 这 样 服务 器 的 管理 者 就 可 以 在 资源 被 移 除 的 情况 下 通知 客 
户 端 了 
411 Length Required 服务 器 要 求 在 请 求 报 文中 包含 Content-Length 首部 时 使 用 。 更 
ZAR Content-Length 首部 的 信息 请 参见 3.5.4 节 
412 Precondition Failed 客户 端 发 起 了 条 件 请 求 ， 且 其 中 一 个 条 件 失 败 了 的 时 候 使 用 。 客 户 








Amt | Expect 首部 时 发 起 的 就 是 条 件 请 求 。 更 多 有 关 Expect 
首部 的 内 容 请 参见 附录 C 中 Expect 部 分 


413 Request Entity Too Large ”客户 端 发 送 的 实体 主体 部 分 比 服务 器 能 够 或 者 希望 处 理 的 要 大 时 ， 




























































































使 用 此 状态 码 

414 Request URI Too Long ”客户 端 所 发 请 求 中 的 请 求 URL 比 服 务 器 能 够 或 者 希望 处 理 的 要 长 
村 ， 使 用 此 状态 码 

415 Unsupported Media Type ”服务 器 无 法 理解 或 无 法 支持 客户 端 所 发 实体 的 内 容 类 型 时 ， 使 用 此 
状态 码 

416 Requested Range Not 请 求 报 文 所 请 求 的 是 指定 资源 的 某 个 范围 ， 而 此 范围 无 效 或 无 法 满 

Satisfiable 足 时 ,使 用 此 状态 码 

417 Expectation Failed 请 求 的 Expect 请 求 首部 包含 了 一 个 期 望 ， 但 服务 器 无 法 满足 此 期 
望 时 ， 使 用 此 状态 码 。 更 多 有 关 Expect 首部 的 内 容 请 参见 附录 C 
中 Expect 部 分 
如 果 代 理 或 其 他 中 间 应 用 程序 有 确切 证 据说 明 源 端 服务 器 会 为 某 请 























求 产生 一 个 失败 的 期 望 ， 就 可 以 发 送 这 个 响应 状态 码 





3.4.5 500 ~ 599 一 一 服务 器 错误 状态 码 
有 了 时 客户 端 发 送 了 一 条 有 效 请 求 ， 服 务 器 自身 却 出 错 了 。 这 可 能 是 客户 端 磁 上 了 服 
务 器 的 缺陷 ， 或 者 服务 器 上 的 子 元 素 ， 比 如 某 个 网 关 资 源 ， pO 


代理 尝试 着 代表 客户 端 与 服务 器 进行 交流 时 ， 经 常会 出 现 问 题 。 代 理会 发 布 SXX 服 
务 器 错误 状态 码 来 描述 所 遇 到 的 问题 (参见 第 6 章 )。 表 3-10 Em 了 已 定义 的 服务 
器 错误 状态 码 。 


表 3-10 ”服务 器 错误 状态 码 及 原因 短语 
状态 码 原因 短语 含 义 
500 Internal Server Error “服务 器 遇 到 一 个 妨碍 它 为 请 求 提供 服务 的 错误 时 ， 使 用 此 状态 码 


501 Not Implemented 客户 端 发 起 的 请 求 超出 服务 器 的 能 力 范围 〈 比 如 ， 使 用 了 服务 器 不 
支持 的 请 求 方法 ) 时 ， 使 用 此 状态 码 
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状态 码 原因 短语 * X 
502 Bad Gateway 作为 代理 或 网 关 使 用 的 服务 器 从 请 求 响应 链 的 下 一 条 链 路 上 收 到 了 


一 条 伪 响 应 (比如 ， 它 无 法 连接 到 其 父 网 关 ) 时 ， 使 用 此 状态 码 


503 Service Unavailable 用 来 说 明 服 务 器 现在 无 法 为 请 求 提供 服务 ,但 将 来 可 以 。 如 果 服 务 
器 知道 什么 时 候 资源 会 变 为 可 用 的 ， 可 以 在 响应 中 包含 一 个 Retry- 
After 首部 。 更 多 有 关 Retry-After 首部 的 信息 请 参见 3.5.3 19 
































504 Gateway Timeout 与 状态 码 408 类 似 ， 只 是 这 里 的 响应 来 自 一 个 网 关 或 代理 ， 它 们 在 
等 待 另 一 服务 器 对 其 请 求 进行 响应 时 超时 了 
505 HTTP Version Not 服务 器 收 到 的 请 求 使 用 了 它 无 法 或 不 愿 支持 的 协议 版 本 时 ， 使 用 此 
Supported 状态 码 。 有 些 服务 器 应 用 程序 会 选择 不 支持 协议 的 早期 版 本 


























3.5 首部 


sip ena uro UE qum i Qus Mi ed 
使 用 标准 HTTP BM CE HTTP/1.1 规范 (RFC 2616) 中 明确 定义 的 首部 
的 目的 。 附 录 C 对 所 有 这 些 首部 进行 了 更 详细 的 总 结 。 


在 请 求 和 响应 报 文中 都 可 以 用 首部 来 提供 信息 ， 有 些 首部 是 某 种 报 文 专用 的 ， 有 些 
首部 则 更 通用 一 些 。 可 以 将 首部 分 为 五 个 主要 的 类 型 。 


。 通用 首部 
这 些 是 客户 端 和 服务 器 都 可 以 使 用 的 通用 首部 。 可 以 在 客户 端 、 服 务 器 和 其 他 应 
用 程序 之 间 提 供 一 些 非常 有 用 的 通用 功能 。 比 如 ，pate 首部 就 是 一 个 通用 首部 ， 
每 一 端 都 可 以 用 它 来 说 明 构 建 报 文 的 时 间 和 日 期 : 

















Date: Tue, 3 Oct 1974 02:16:00 GMT 


。 请 求 首部 
从 名 字 中 就 可 以 看 出 ， 请 求 首部 是 请 求 报 文 特有 的 。 它 们 为 服务 器 提供 了 一 些 额 
外 信息 ， 比 如 客户 端 希望 接收 什么 类 型 的 数据 。 例 如 ， 下 面 的 accept 首部 就 用 
来 告知 服务 器 客户 端 会 接受 与 其 请 求 相符 的 任意 媒体 类 型 ， 








Accept: */* 


。 响应 首部 
响应 报 文 有 自己 的 首部 集 ， 以 便 为 客户 喘 提 供 信息 【比如 ， 窜 户 端 在 与 哪 种 类 型 
的 服务 器 进行 交互 )。 例 如 ， 下 列 server 首部 就 用 来 告知 客户 端 它 在 与 一 个 版 
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本 1.0 的 Tiki-Hut 服务 


务 器 进行 交互 : 


Server: Tiki-Hut/1.0 


。 实体 首部 


实体 首部 指 的 是 用 于 应 对 实体 主体 部 分 的 首部 。 比 如 ， 可 以 用 实体 首部 来 说 明 实 
体 主体 部 分 的 数据 类 型 。 例 如 ， 可 以 通过 下 列 Content-Type 首部 告知 应 用 程 
序 ， 数 据 是 以 iso-latin-1 字符 集 表 示 的 HTML 文档 : 


Content-Type: 


` 扩展 首部 


text/html; charset-iso-latin-1 


扩展 首部 是 非 标准 的 首部 ， 由 应 用 程序 开发 者 创建 ， 但 还 未 添加 到 已 批准 的 
HTTP 规范 中 去 。 即 使 不 知道 这 些 扩展 首部 的 含义 ，HTTP 程序 也 要 接受 它们 并 
对 其 进行 转发 。 


3.5.1 通用 首部 





有 些 首部 提供 了 与 报 文 相 关 的 最 基本 的 信息 ， 它 们 被 称 为 通用 首部 。 它 们 像 和 事 佬 
儿 一 样 ， 不 论 报 文 是 何 类 型 ， 都 为 其 提供 一 些 有 用 信息 。 


例如 ， 不 管 是 构建 请 求 报 文 还 是 响应 报 文 ， 创 建 报 文 的 日 期 和 时 间 都 是 同一 个 意思 ， 
这 类 信 息 的 首部 对 这 两 种 类 型 的 报 文 来 说 也 是 通用 的 。 表 3-11 列 出 了 通用 
的 信息 性 首部 。 


表 3-1 1 通用 的 信息 性 首部 




















B m Ho xh 
Connection 允许 客户 端 和 服务 器 指定 与 请 求 /响应 连接 有 关 的 选项 
Date 提供 日 期 和 时 间 标 志 ， 说 明报 文 是 什么 时 间 创 建 的 


MIME-Version 


Trailer 


Transfer-Encoding 


Update 


Via 








注 5: Date 中 列 


出 了 Date 








注 6: 15.6.3 节 详 细 











给 出 了 发 送 端 使 用 的 MIME 版 本 


如 果 报 文采 用 了 分 块 传输 编码 (chunked transfer encoding) 方式 ， 就 可 
以 用 这 个 首部 列 出 位 于 报 文 拖 挂 (trailer) 部 分 的 首部 集合 “ 


告知 接收 端 为 了 保证 报 文 的 可 靠 传输 ， 对 报 文 采用 了 什么 编码 方式 
给 出 了 发 送 端 可 能 想 要 “升级 ”使 用 的 新 版 本 或 协议 
显示 了 报 文 经 过 的 中 间 节 点 〈 代 理 、 网 关 ) 






































首部 可 接受 的 日 期 格式 。 
探讨 了 分 块 传输 编码 。 
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通用 缓存 首部 

HTTP/1.0 引入 了 第 一 个 允许 HTTP 应 用 程序 缓存 对 象 本 地 副本 的 首部 ， 这 样 就 不 需 
要 总 是 直接 从 源 端 服务 器 获取 了 。 最 新 的 HTTP 版 本 有 非常 丰富 的 缓存 参数 集 。 第 
7 章 深入 讨论 了 缓存 。 表 3-12 列 出 了 基本 的 缓存 首部 。 

X3-12 ”通用 缓存 首部 





























B # Box 
Cache-Control 于 随 报 文 传送 缓存 指示 
Pragma’ 另 一 种 随 报 文 传送 指示 的 方式 ， 但 并 不 专用 于 缓 右 











3.5.2 请求 首 部 

请 求 首部 是 只 在 请 求 报 文中 有 意义 的 首部 。 用 于 说 明 是 谁 或 什么 在 发 送 请 求 、 请 求 
源 自 何 处 ， 或 者 客户 端的 喜好 及 能 力 。 服 务 器 可 以 根据 请 求 首部 给 出 的 客户 端 信息 ， 
试 着 为 客户 端 提供 更 好 的 响应 。 表 3-13 列 出 了 请 求 的 信息 性 首部 。 

表 3-13 请 求 的 信息 性 首部 







































































B B jo R 
Client-IP' 提供 了 运行 客户 端的 机 器 的 IP 地 址 
From 提供 了 客户 端 用 户 的 E-mail 地 址 ” 
Host 给 出 了 接收 请 求 的 服务 器 的 主机 名 和 端口 号 
Referer 提供 了 包含 当前 请 求 URI 的 文档 的 URL 
UA-Color 提供 了 与 客户 端 显示 器 的 显示 颜色 有 关 的 信息 
UA-CPU" 给 出 了 客户 端 CPU 的 类 型 或 制造 商 
UR-Disp 提供 了 与 客户 端 显示 器 (屏幕 ) 能 力 有 关 的 信息 
UA-OS 给 出 了 运行 在 客户 端 机 器 上 的 操作 系统 名 称 及 版 本 
UA-Pixels 提供 了 客户 端 显示 器 的 像素 信息 
User-Agent 将 发 起 请 求 的 应 用 程序 名 称 告知 服务 器 


1. Accept i ED 
Accept 首部 为 客户 端 提供 了 一 种 将 其 喜好 和 能 力 告 知 服务 器 的 方式 ， 包 括 它 们 想 
要 什么 ， 可 以 使 用 什么 ， 以 及 最 重要 的 ， 它 们 不 想 要 什么 。 这 样 ， 服 务 器 就 可 以 根 


注 7: 从 技术 角度 来 看 ，Pragma 是 一 种 请 求 首 部 。 从 未 被 指定 用 于 响应 首部 。 由 于 经 常 被 错误 地 用 于 响应 
首部 ， 很 多 客户 端 和 代理 都 会 将 Pragma 解释 为 响应 首部 ， 但 其 确切 语义 并 未 得 到 很 好 地 定义 。 任 
何 情况 下 Cache-Control 的 使 用 都 优 于 Pragma。 
注 8: RFC2616 没有 定义 client-IP 和 UA-* 首部 ， 但 很 多 HTTP 客户 端 应 用 程序 都 实现 了 这 两 个 首部 。 
注 9: 使 用 RFC 822 E-mail 地 址 格式 。 
注 10: 尽管 有 些 客户 端 实现 了 UA-* 首部 ， 但 我 们 认为 UA-* 首部 是 有 副作用 的 。 不 应 该 将 内 容 ， 尤 其 是 
HTML， 局 限于 特定 的 客户 端 配置 。 
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人 
端 都 受益 。 客 户 端 会 得 到 它们 想 要 的 内 容 ， 服 务 器 则 不 会 浪费 其 时 间 和 带宽 来 发 送 
客户 端 无 法 使 用 的 东西 。 表 3-14 列 出 了 各 种 Accept 首部 。 


表 3-14 Accept 首 部 








B m 描 述 
Accept 告诉 服务 器 能 够 发 送 哪些 媒体 类 型 
Accept-Charset 告诉 服务 器 能 够 发 送 哪些 字符 集 
Accept-Encoding 告诉 服务 器 能 够 发 送 哪些 编码 方式 
Accept-Language 告诉 服务 器 能 够 发 送 哪些 语言 
TE'' 告诉 服务 器 可 以 使 用 哪些 扩展 传输 编码 








2. 条 件 请 求 首部 

有 时 客户 端 希望 为 请 求 加 上 某 些 限制 。 比 如 ， 如 果 客 户 端 已 经 有 了 一 份 文 档 副 本 ， 
就 希望 只 在 服务 器 上 的 文档 与 客户 端 拥 有 的 副本 有 所 区 别 时 ， 才 请 求 服务 器 传输 文 
档 。 通 过 条 件 请 求 首部 ， 客 户 端 就 可 以 为 请 求 加 上 这 种 限制 ， 要 求 服务 器 在 对 请 求 
进行 响应 之 前 ， 确 保 某 个 条 件 为 真 。 表 3-15 列 出 了 各 种 条 件 请 求 首部 。 


表 3-15 条 件 请 求 首 部 
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H HH 描 xh 
Expect 允许 客户 端 列 出 某 请 求 所 要 求 的 服务 器 行为 
If-Match 如 果实 体 标记 与 文档 当前 的 实体 标记 相 匹 配 ， 就 获取 这 份 文档 
If-Modified-Since 除非 在 某 个 指定 的 日 期 之 后 资源 被 修改 过 ， 否 则 就 限制 这 个 请 求 
If-None-Match 如 果 提 供 的 实体 标记 与 当前 文档 的 实体 标记 不 相符 ， 就 获取 文档 
If-Range 允许 对 文档 的 某 个 范围 进行 条 件 请 求 
If-Unmodified-Since 除非 在 某 个 指定 日 期 之 后 资源 没有 被 修改 过 ， 否 则 就 限制 这 个 请 求 
Range 如 果 服 务 器 支持 范围 请 求 ， 就 请 求 资源 的 指定 范围 








3. 安全 请 求 首部 

HTTP 本 身 就 支持 一 种 简单 的 机 制 ， 可 以 对 请 求 进行 质询 /响应 认证 。 这 种 机 制 要 

Mi s Mc E E S 
。 我 们 会 在 第 14 章 讨论 这 种 质询 /响应 机 制 ， 同 时 还 会 对 在 HTTP 之 上 实现 的 

其 他 安全 机 制 进行 讨论 。 表 3-16 列 出 了 一 些 安全 请 求 首部 。 











主 11: ESAR TE 首部 的 内 容 请 参见 15.6.2 市 。 
E12: 更 多 有 关 实 体 标记 的 内 容 请 参见 第 7 章 。 标 记 本 质 上 就 是 某 版 本 资源 的 标识 符 。 
注 13: 更 多 有 关 Range 首部 的 内 容 请 参见 15.9 市 。 


R 





a 











HTTP 报 文 | 73 











70 








表 3-16 ”安全 请 求 首部 




















首 部 描 xk 
Authorization 包含 了 客户 端 提供 给 服务 器 ， 以 便 对 其 自身 进行 认证 的 数据 
Cookie 客户 端 用 它 向 服务 器 传送 一 个 令 牌 一 一 它 并 不 是 真正 的 安全 首部 ， 但 确实 
隐 含 了 安全 功能 “ 
Cookie2 用 来 说 明 请 求 端 支持 的 cookie 版 本 ， 参 见 11.6.7 节 


4. 代理 请 求 首部 
随 着 因特网 上 代理 的 普遍 应 用 ， 人 们 定义 了 几 个 首部 来 协助 其 更 好 地 工作 。 第 6 章 
对 这 些 首部 进行 了 详细 的 讨论 。 表 3-17 列 出 了 一 些 代理 请 求 首 部 。 
表 3-17 ”代理 请 求 首部 
B m Ho xh 


Max-Forward 在 通 往 源 端 服务 器 的 路 径 上 ， 将 请 求 转 发 给 其 他 代理 或 网 关 的 最 大 次 
数 一 一 与 TRACE 方法 一 同 使 用 

















Proxy-Authorization +} Authorization 首部 相同 ， 但 这 个 首部 是 在 与 代理 进行 认证 时 使 用 的 


























Proxy-Connection 与 Connection 首部 相同 ， 但 这 个 首部 是 在 与 代理 建立 连接 时 使 用 的 


3.5.8 ”响应 首部 

响应 报 文 有 自己 的 响应 首部 集 。 响 应 首部 为 客户 端 提 供 了 一 些 额 外 信息 ， 比 如 谁 在 
发 送 响 应 、 响 应 者 的 功能 ， 其 至 与 响应 相关 的 一 些 特殊 指令 。 这 些 首 部 有 助 于 客户 
端 处 理 响 应 ， 并 在 将 来 发 起 更 好 的 请 求 。 表 3-18 列 出 了 一 些 响应 的 信息 性 首部 。 

表 3-18 ”响应 的 信息 性 首部 






























































首 部 jü — x 
Age (从 最 初创 建 开始 ) 响应 持续 时 间 “ 
Public" 服务 器 为 其 资源 支持 的 请 求 方法 列表 
Retry-After 如 果 资 源 不 可 用 的 话 ， 在 此 日 期 或 时 间 重 试 
Server 服务 器 应 用 程序 软件 的 名 称 和 版 本 
Title" 对 HTML 文档 来 说 ， 就 是 HTML 文档 的 源 端 给 出 的 标题 
Warning 比 原 因 短 语 中 更 详细 一 些 的 警告 报 文 



































ZE 14: RFC 2616 并 没有 定义 Cookie 首部 ， 在 第 11 章 详细 讨论 了 该 首部 。 
注 15: 参见 6.6.2 节 。 
注 16: 暗示 响应 是 通过 中 间 节 点 ， 很 可 能 是 从 代理 的 缓存 传送 过 来 的 。 


























注 17: Public 首部 是 在 RFC 2068 中 定义 的 ， 但 在 最 新 的 HTTP 定义 (RFC 2616) 中 并 没有 出 现 。 
注 18: RFC 2616 并 没有 定义 Title 首部 。 请 参见 原始 的 HTTP/1.0 草案 定义 (http:Wwww.w3.org/Protocols/ 
HTTP/HTTP2.html) 。 
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1. 协商 首部 

如 果 资 源 有 多 种 表示 方法 一 一 比如 ， 如 果 服 务 器 上 有 某 文 档 的 法 语 和 德语 译 稿 ， 
HTTP/1.1 可 以 为 服务 器 和 客户 端 提供 对 资源 进行 协商 的 能 力 。 第 17 章 详细 讨论 了 
协商 。 这 里 列 出 了 几 个 首部 ， 服 务 器 可 以 用 它们 来 传递 与 可 协商 资源 有 关 的 信息 。 
d 3-19 列 出 了 协商 首部 。 

表 3-19 协商 首部 












































首 部 描 述 
Accept-Ranges 对 此 资源 来 说 ， 服 务 器 可 接受 的 范围 类 型 
Vary 服务 器 查看 的 其 他 首部 的 列表 ， 可 能 会 使 响应 发 生变 化 ， 也 就 是 说 ， 这 是 
个 首部 列表 ， 服 务 器 会 根据 这 些 首部 的 内 容 挑 选 出 最 适合 的 资源 版 本 发 
送 给 客户 端 


2. 安全 响应 首部 

我 们 已 经 看 到 过 安全 请 求 首 部 了 ， 本 质 上 这 里 说 的 就 是 HTTP 的 质询 /响应 认证 机 
制 的 响应 侧 。 我 们 会 在 第 14 章 对 安全 问题 进行 详细 的 讨论 。 现 在 这 里 介绍 的 是 一 些 
基本 的 质询 首部 。 表 3-20 列 出 了 安全 响应 首部 。 

表 3-20 ”安全 响应 首部 
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B BN FH... j 
Proxy-Authenticate 来 自 代 理 的 对 客户 端的 质询 列表 
Set-Cookie 不 是 真正 的 安全 首部 ， 但 隐 含 有 安全 功能 ， 可 以 在 客户 端 设置 一 个 令 牌 ， 
以 便服 务 器 对 客户 端 进行 标识 ” 
Set-Cookie2 与 Set-Cookie 类 似 ，RFC 2965 Cookie 定义 ; 参见 11.6.7 节 


WWW-Authenticate 来 自 服务 器 的 对 客户 端的 质询 列表 


3.5.4 实体 首部 


有 很 多 首部 可 以 用 来 描述 HTTP 报 文 的 负荷 。 由 于 请 求 和 响应 报 文中 都 可 能 包含 实 
体 部 分 ， 所 以 在 这 两 种 类 型 的 报 文中 都 可 能 出 现 这 些 首部 。 
实体 首部 提供 了 有 关 实 体 及 其 内 容 的 大 量 信息 ， 从 有 关 对 象 类 型 的 信息 ， 到 能 够 对 


资源 使 用 的 各 种 有 效 的 请 求 方法 。 总 之 ， 实 体 首部 可 以 告知 报 文 的 接收 者 它 在 对 什 
么 进行 处 理 。 表 3-21 列 出 了 实体 的 信息 性 首部 。 








注 19: Set-Cookie 和 Set-Cookie2 都 是 扩展 首部 ， 参 见 第 11 章 。 
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表 3-21 实体 的 信息 性 首部 








B B 描述 
Allow 列 出 了 可 以 对 此 实体 执行 的 请 求 方法 
Location 告知 客户 端 实体 实际 上 位 于 何 处 ， 用 于 将 接收 端 定向 到 资源 的 (可 能 是 新 


的 ) 位 置 (URL) 上 去 


1. 内 容 首 部 

内 容 首部 提供 了 与 实体 内 容 有 关 的 特定 信息 ， 说 明了 其 类 型 、 尺 寸 以 及 处 理 它 所 需 
的 其 他 有 用 信息 。 比 如 ，Web 浏览 器 可 以 通过 查看 返回 的 内 容 类 型 ， 得 知 如 何 显示 
对 象 。 表 3-22 列 出 了 各 种 内 容 首 部 。 


表 3-22 内容 首部 
































首 部 描 述 
Content-Base” 解析 主体 中 的 相对 URL 时 使 用 的 基础 URL 
Content-Encoding 对 主体 执行 的 任意 编码 方式 
Content-Language 理解 主体 时 最 适宜 使 用 的 自然 语言 
Content-Length 主体 的 长 度 或 尺寸 
Content-Location 资源 实际 所 处 的 位 置 
Content-MD5 主体 的 MD5 校 验 和 
Content -Range 在 整个 资源 中 此 实体 表示 的 字 节 范围 
Content-Type 这 个 主体 的 对 象 类 型 


2. 实体 缓存 首部 

通用 的 缓存 首部 说 明了 如 何 或 什么 时 候 进 行 缓 存 。 实 体 的 缓存 首部 提供 了 与 被 缓存 
实体 有 关 的 信息 一 一 比如 ， 验 证 已 缓存 的 资源 副本 是 否 仍然 有 效 所 需 的 信息 ， 以 及 
更 好 地 估计 已 缓存 资源 何 时 失效 所 需 的 线索 。 


第 7 章 深 入 讨论 了 HTTP 请 求 和 响应 的 缓存 。 在 那里 我 们 会 再 次 看 到 这 些 首部 。 表 
3-23 列 出 了 一 些 实体 缓存 首部 。 


表 3-23 ”实体 缓存 首部 





























Ë 部 Hoo 
ETag 与 此 实体 相关 的 实体 标记 ” 
Expires 实体 不 再 有 效 ， 要 从 原始 的 源 端 再 次 获取 此 实体 的 日 期 和 时 间 
Last-Modified 这 个 实体 最 后 一 次 被 修改 的 日 期 和 时 间 














注 20: RFC 2616 中 没有 定义 Content -Base 首部 。 
注 21: 实体 标记 本 质 上 来 说 就 是 某 个 特定 资源 版 本 的 标识 符 。 
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36 更 多 信息 


更 多 信息 请 参见 下 列 资 源 。 


http://www.w3.org/Protocols/rfc2616/rfc2616.txt 


RFC 2616, “Hypertext Transfer Protocol”, H R. Fielding, J. Gettys, 
H. Frystyk, L. Mastinter, P. Leach # T. Berners-Lee 编写 。 


HTTP Pocket Reference (KHTTP 口袋 书 》) 


Clintin Wong 2:855, O'Reilly & Associates 公司 


http://www.w3.org/Protocols/ 
HTTP 的 W3C 架构 页 面 。 





版 。 


J. Mogul. 
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HTTP 规范 对 HTTP 报 文 解释 得 很 清楚 ， 但 对 HTTP 连接 介绍 的 并 不 多 ，HTTP £ 
接 是 HTTP 报 文 传输 的 关键 通道 。 编 写 HTTP 应 用 程序 的 程序 员 需 要 理解 HTTP XE 
接 的 来 龙 去 脉 以 及 如 何 使 用 这 些 连接 。 


HTTP 连接 管理 有 点 像 魔 术 ， 应 当 从 经 验 与 实践 ， 而 不 仅仅 是 出 版 的 文献 中 学 习 。 
通过 本 章 ， 可 以 了 解 到 : 


° HTTP 是 如 何 使 用 TCP 连接 的 ; 

° TCP 连接 的 时 延 、 瓶 颈 以 及 存在 的 障碍 ，; 

。 HTTP 的 优化 ， 包 括 并 行 连接 、keep-alive (持久 连接 ) 和 管道 化 连接 ， 
。 管理 连接 时 应 该 以 及 不 应 该 做 的 事情 。 





4.1 TCP 连 接 


世界 上 几乎 所 有 的 HTTP 通信 都 是 由 TCP/IP 承载 的 ，TCP/IP 是 全 球 计 算 机 及 网 络 
设备 都 在 使 用 的 一 种 常用 的 分 组 交换 网 络 分 层 协议 集 。 客 户 端 应 用 程序 可 以 打开 一 
条 TCP/IP 连接 ， 连 接 到 可 能 运行 在 世界 任何 地 方 的 服务 器 应 用 程序 。 一 旦 连接 建 
立 起 来 了 ， 在 客户 端 和 服务 器 的 计算 机 之 间 交 换 的 报 文 就 永远 不 会 丢失 、 受 损 或 
ABER 


比如 ， 你 想 获 取 Joe 的 五 金 商店 最 新 的 电动 工具 价目 表 : 








http://www.joes-hardware.com:80/power-tools.html 


浏览 器 收 到 这 个 URL 时 ， 会 执行 图 4-1 所 示 的 步骤 。 第 (1) ~ (3) 步 会 将 服务 器 的 
IP 地 址 和 端口 号 从 URL 中 分 离 出 来 。 在 第 (4) 步 中 建立 到 Web 服务 器 的 TCP 连 
接 ， 并 在 第 (5) 步 通过 这 条 连接 发 送 一 条 请 求 报 文 。 在 第 (6) 步 读 取 响 应 ， 并 在 第 
(7) 步 关闭 连接 。 








4.4.4 TCP 的 可 靠 数据 管道 
HTTP 连接 实际 上 就 是 TCP 连接 及 其 使 用 规则 。TCP 连接 是 因特网 上 的 可 靠 连 接 。 
要 想 正确 、 快 速 地 发 送 数据 ， 就 需要 了 解 TCP 的 一 些 基 本 知识 。” 








Dd: 尽管 报 文 不 会 丢失 或 受 损 ， 但 如 果 计 算 机 或 网 络 崩 涡 了 ， 客 户 端 和 服务 器 之 间 的 通信 仍然 会 被 断 开 。 
在 这 种 情况 下 ， 会 通知 客户 端 和 服务 器 通信 中 断 了 。 
注 2: 如 果 要 编写 复杂 的 HTTP 应 用 程序 ， 尤 其 是 ， 希 望 程序 能 够 快速 运行 的 话 ， 所 需 学 习 的 、 与 TCP 内 
部 原理 及 性 能 有 关 的 知识 就 要 比 本 章 所 讨论 的 内 容 多 得 多 。 我 们 推荐 W. Richard Stevens 编写 的 TCP/ 
IP Illustrated (KTCP/IP 详解 》) 系列 图 书 (Addison Wesley 公司 出 版 )。 
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TCP 为 HTTP 提供 了 一 条 可 靠 的 比特 传输 管道 。 从 TCP 连接 一 端 十 和 的 字 节 会 从 另 
图 


一 端 以 原 有 的 顺序 、 正确 地 传送 出 来 (参见 
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(1) 浏览 器 解析 出 主机 名 www. joes-hardware.com 
(2) 浏览 器 查询 这 个 主机 名 的 耳 地 址 (DNS) 202.43.78.3 


(3) 浏览 器 获得 端口 号 (80) 


804 
(4) 浏览 器 发 起 到 202.43.78.3 端 口 80 的 连接 LI g TS NM 80 


客户 端 服务 器 
(202.43.78.3) 


(5) 浏览 器 向 服务 器 发 送 一 条 HTTP GET 报 文 -— 
器 发 送 一 条 ul E 因特网 B 





























客户 端 服务 器 
(6) 浏览 器 从 服务 器 读 取 HTTP 响 应 报 文 =m. 
客户 端 服务 器 
(7) 浏览 器 关闭 连接 
因特网 
客户 端 服务 器 
4-1 Web 浏览 CP 连接 与 Web 服务 器 进行 交互 
因特网 
[lg ed 
客户 端 服务 器 











4-2 TCP 会 按 序 、 无 差错 地 承载 HTTP 数据 


4.1.2. TCP 流 是 分 段 的 、 由 IP 分 组 传送 

TCP 的 数据 是 通过 名 为 JP 分 组 (sk IP 数据 报 ) 的 小 数据 块 来 发 送 的 。 这 样 的 话 ， 
如 图 4-3a 所 示 ，HTTP 就 是 “HTTP over TCP over IP” 这 个 “协议 栈 ” 中 的 最 顶层 
了 。 其 安全 版 本 HTTPS 就 是 在 HTTP 和 TCP 之 间 插 入 了 一 个 (8529 TLS 或 SSL 
的 ) 密码 加 密 层 (图 4-3b ) 。 
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TT 











HTTP 应 用 层 

















HEDE 应 用 层 TSL or SSE 安全 层 
———X O— n. 
_ biis sd 传输 层 
= 于 
ui 网 络 层 IP 网 络 层 
—m a — 
人 数据 链 路 导 网 络 接口 — 
和 
(a) HTTP (b)HTTPS 











4-3 HTTP 和 HTTPS 网 络 协议 栈 


HTTP 要 传送 一 条 报 文 时 ， 会 以 流 的 形式 将 报 文 数据 的 内 容 通 过 一 条 打开 的 TCP 连 
接 按 序 传输 。TCP 收 到 数据 流 之 后 ， 会 将 数据 流 砍 成 被 称 作 段 的 小 数据 块 ， 并 将 段 
封装 在 IP 分 组 中 ,通过 因特网 进行 传输 (参见 图 4-4)。 所 有 这 些 工作 都 是 由 TCP/ 
IP 软件 来 处 理 的 ，HTTP 程序 员 什么 都 看 不 到 。 








每 个 TCP 段 都 是 由 I 了 PP 分 组 承载 ， 从 一 个 IP 地 址 发 送 到 另 一 个 IP 地址 的 。 每 个 IP 
分 组 中 都 包括 : 

° 一 个 IP 分 组 首部 (通常 为 20 FT); 

° 一 个 TCP REN (通常 为 20 f D); 

。 一 个 TCP 数据 块 (0 个 或 多 个 字 节 )。 

IP 首部 包含 了 源 和 目的 IP 地 址 、 长 度 和 其 他 一 些 标 记 。TCP 段 的 首部 包含 了 TCP 
端口 号 、TCP 控制 标记 ， 以 及 用 于 数据 排序 和 完整 性 检查 的 一 些 数 字 值 。 


4.1.3 ”保持 TCP 连 接 持续 不 断 地 运行 
在 任意 时 刻 计 算 机 都 可 以 有 儿 条 TCP 连接 处 于 打开 状态 。TCP 是 通过 端口 号 来 保持 
所 有 这 些 连接 持续 不 断 地 运行 。 





端口 号 和 雇员 使 用 的 电话 分 机 号 很 类 似 。 就 像 公 司 的 总 机 号 码 能 将 你 接 到 前 台 ， 而 

分 机 号 可 以 将 你 接 到 正确 的 雇员 位 置 一 样 ，IP 地 址 可 以 将 你 连接 到 正确 的 计算 机 ， 

而 端口 号 则 可 以 将 你 连接 到 正确 的 应 用 程序 上 去 。TCP 连接 是 通过 4 个 值 来 识别 的 : 
< jJ 耳 地 址 、 源 端口 号 、 目 的 耳 地 址 、 目 的 端口 号 > 

这 4 个 值 一 起 唯一 地 定义 了 一 条 连接 。 两 条 不 同 的 TCP 连接 不 能 拥有 4 个 完全 相同 

的 地 址 组 件 值 〈 但 不 同 连接 的 部 分 组 件 可 以 拥有 相同 的 值 )。 





yÈ 
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4-4 承载 TCP 段 的 IP 分 组 ， 它 承载 了 TCP 数据 流 中 的 小 块 数据 








在 图 4-5 中 ， 有 4 条 连接 : A、B、C 和 D。 表 4-1 列 出 了 每 个 端口 的 相关 信息 。 
表 4-1 TCP 连 接 值 
连 接 源 IP 地 址 i xs oO 目的 IP 地 址 目的 端口 
A 209.1.32.34 2034 204.62.128.58 4133 
B 209.1.32.35 3227 204.62.128.58 4140 
C 209.1.32.35 3105 207.25.71.25 80 
D 209.1.33.89 5100 207.25.71.25 80 








204.62.128.58 207.25.71.25 


4133 4140 
80 
x B cS 


2034 3227 3105 


5100 


209.1.32.34 209.1.32.35 209.1.33.89 











& 4-5 4 个 不 同 的 TCP 连接 


注意 ， 有 些 连接 共享 了 相同 的 目的 端口 号 (C 和 D 都 使 用 目的 端口 号 80)。 有 些 连 
接 使 用 了 相同 的 源 IP 地 址 (B 和 C)。 有 些 使 用 了 相同 的 目的 全 地 址 (A 和 B,C 
和 DD)。 但 没有 两 个 不 同 连 接 所 有 的 4 个 值 都 一 样 。 


4.1.4 ”用 TCP 套 接 字 编程 

操作 系统 提供 了 一 些 操纵 其 TCP 连接 的 工具 。 为 了 更 具体 地 说 明 问 题 ， 我 们 来 看 一 
个 TCP 编程 接口 。 表 4-2 显示 了 和 套 接 字 API 提供 的 一 些 主要 接口 。 这 个 套 接 字 API 
向 HTTP 程序 员 隐 藏 了 ITCP 和 了 下 的 所 有 细节 。 和 套 接 字 API 最 初 是 为 Unix 操作 系统 
开发 的 ， 但 现在 几乎 所 有 的 操作 系统 和 语言 中 都 有 其 变 体 存在 。 


表 4-2 ”对 TCP 连 接 进 行 编程 所 需 的 常见 套 接 字 接口 函数 












































套 接 字 API 调 用 描 述 
S = socket (<parameters>) 创建 一 个 新 的 、 未 命名 、 未 关联 的 套 接 字 
bind(s,«local IP:port>) 向 套 接 字 赋 一 个 本 地 端口 号 和 接口 
connect (s, «remote IP:port>) 创建 一 条 连接 本 地 套 接 字 与 远程 主机 及 端口 的 连接 
listen(s,...) 标识 一 个 本 地 套 接 字 ， 使 其 可 以 合法 接受 连接 
S2 = accept (s) 等 待 基 人 建立 一 条 到 本 地 端口 的 连接 
n = read(s, buffer, n) 尝试 从 套 接 字 向 缓冲 区 读 取 nn 4 p 
n = write(s, buffer, n) 尝试 从 缓冲 区 中 向 套 接 字 写 入 n 个 字 市 
close(s) 完全 关闭 TCP 连接 
shutdown(s,<side>) 只 关闭 TCP 连接 的 输入 或 输出 端 
getsockopt(s,...) 读 取 某 个 内 部 套 接 字 配 置 选项 的 值 
setsockopt(s,...) 修改 某 个 内 部 套 接 字 配 置 选项 的 值 


套 接 字 API 允许 用 户 创建 TCP 的 端点 数据 结构 ， 将 这 些 端 点 与 远程 服务 器 的 TCP 
端点 进行 连接 ， 并 对 数据 流 进行 读 写 。TCP API 隐藏 了 所 有 底层 网 络 协议 的 担 手 细 
节 ， 以 及 TCP 数据 流 与 IP 分 组 之 间 的 分 段 和 重 装 细节 。 
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图 4-1 显示 了 Web 浏览 器 是 如 何 用 HTTP 从 Joe 的 五 金 商店 下 载 power-tools.html 
页 面 的 。 图 4-6 中 的 伪 代 码 说 明了 可 以 怎样 通过 套 接 字 API 来 凸显 客户 端 和 服务 器 
在 实现 HTTP 事务 时 所 应 执行 的 步骤 。 





客户 端 民 务 器 

) 创建 新 的 套 接 字 (socket) 

| 将 套 接 字 绑 定 到 端口 80 上 去 (bind) 
) 





允许 套 接 字 进 行 连接 (listen) 
等 竺 连接 (accept) 





(Cl) 获取 IP 地 址 和 端口 号 
(C2) 创建 新 的 套 接 字 (socket) 
(C3) 连接 到 服务 器 IP:port 上 去 (connect) 


EN a (S5) 通知 应 用 程序 有 连接 到 来 
(C4) 连接 成 功 “< (S6) 开始 读 取 请 求 (read) 
(C5) 发 送 HITP 请 求 (write) ~.. ` 
(C6) 等 待 HTTP 响 应 (read) TR 3 
' 7* (S7) 处 理 HTTP 请 求 报 文 
HJ WE qasa niaaa (S8) 回 送 HTTP 响 应 (write) 
人 (S9) 关闭 连接 (close) 























图 4-6 TCP 客户 端 和 服务 器 是 如 何 通过 TCP 套 接 字 接口 进行 通信 的 


我 们 从 Web 服务 器 等 待 连接 (参见 图 4-6，S4) 开始 。 客 户 端 根据 URL 判定 出 IP 
地 址 和 端口 号 ， 并 建立 一 条 到 服务 器 的 TCP 连接 (参见 图 4-6，C3)。 建 立 连接 可 
能 要 花费 一 些 时 间 ， 时 间 长 短 取决 于 服务 器 距离 的 远近 、 服 务 器 的 负载 情况 ， 以 及 
因特网 的 拥挤 程度 。 


一 旦 建立 了 连接 ， 客 户 端 就 会 发 送 HTTP 请 求 (参见 图 4-6，C5)， 服 务 器 则 会 读 取 
请 求 (参见 图 4-6，S6)。 一 旦 服务 器 获取 了 整 条 请 求 报 文 ， 就 会 对 请 求 进行 处 理 ， 
执行 所 请 求 的 动作 (参见 图 4-6，S7)， 并 将 数据 写 回 客户 端 。 客 户 端 读 取 数据 (Z 
见 图 4-6，C6)， 并 对 响应 数据 进行 处 理 (参见 图 4-6, C7). 


4.2 ”对 TCP 性 能 的 考虑 


HTTP 紧 挨 着 TCP， 位 于 其 上 层 ， 所 以 HTTP 事务 的 性 能 在 很 大 程度 上 取决 于 底层 
TCP 通道 的 性 能 。 本 节 重 点 介绍 了 一 些 很 重要 的 、 对 这 些 TCP 连接 的 性 能 考虑 。 理 
解 了 TCP 的 某 些 基本 性 能 特点 之 后 ， 就 可 以 更 好 地 理解 HTTP 的 连接 优化 特性 ， 这 
样 就 能 设计 实现 一 些 更 高 性 能 的 HITP 应 用 程序 了 。 
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本 节 要 求 大 家 对 TCP 协议 的 内 部 细节 有 一 定 的 了 解 。 如 果 对 TCP 性 能 考虑 的 细节 
不 感 兴趣 (或 者 很 熟悉 这 些 细节 ) ， 可 以 直接 跳 到 4.3 节 。TCP 是 个 很 复杂 的 话题 ， 
所 以 这 里 我 们 只 能 提供 对 TCP 性 能 的 简要 概述 。 本 章 末尾 的 4.8 节 列 出 了 一 些 很 好 
的 TCP 参考 书 ， 以 供 参考 。 





4.2.1 HTTP 事 务 的 时 延 
我 们 来 回顾 一 下 ， 在 HTTP 请 求 的 过 程 中 会 出 现 哪些 网 络 时 延 ， 并 以 此 开始 我 们 的 
TCP 性 能 之 旅 。 图 4-7 描绘 了 HTTP 事务 主要 的 连接 、 传 输 以 及 处 理 时 延 。 
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Ç < — ET > 
zin. DNSH 连接 请 求 “处 理 响应 关闭 
Pu 














& 4-7. íF HTTP 事务 的 时 间 线 


注意 ， 与 建立 TCP 连接 ， 以 及 传输 请 求 和 响应 报 文 的 时 间 相 比 ， 事 务 处 理 时 间 可 能 
是 很 短 的 。 除 非 客户 端 或 服务 器 超载 ， 或 正在 处 理 复杂 的 动态 资源 ， 否 则 HTTP 时 
延 就 是 由 TCP 网 络 时 延 构 成 的 。 

HTTP 事务 的 时 延 有 以 下 几 种 主要 原因 。 

(1) 客户 端 首 先 需 要 根据 URI 确定 Web 服务 器 的 IP 地 址 和 端口 号 。 如 果 最 近 没 有 对 
URI 中 的 主机 名 进行 访问 ， 通 过 DNS 解析 系统 将 URI 中 的 主机 名 转换 成 一 个 IP 
地 址 可 能 要 花费 数 十 秒 的 时 间 `, 

(2) 接 下 来 ， 客 户 端 会 向 服务 器 发 送 一 条 TCP 连接 请 求 ， 并 等 待 服务 器 回 送 一 个 请 
求 接受 应 答 。 每 条 新 的 TCP 连接 都 会 有 连接 建立 时 延 。 这 个 值 通常 最 多 只 有 一 
两 秒 钟 ， 但 如 果 有 数 百 个 HTTP 事务 的 话 ， 这 个 值 会 快速 地 又 加 上 去 。 

(3) 一旦 连接 建立 起 来 了 ， 客 户 端 就 会 通过 新 建立 的 TCP 管道 来 发 送 HTTP 请 求 。 
数据 到 达 时 ，Web 服务 器 会 从 TCP 连接 中 读 取 请 求 报 文 ， 并 对 请 求 进行 处 理 。 














注 3: 幸运 的 是 ， 大 多 数 HTTP 客户 端 都 有 一 个 小 的 DNS 缓存 ， 用 来 保存 近期 所 访问 站 点 的 IP HE. AE 
已 经 在 本 地 “缓存 ”( 记 录 ) 了 卫 地 址 ， 查 询 就 可 以 立即 完成 。 因 为 大 多 数 Web 浏览 器 浏览 的 都 是 
少数 常用 站 点 ， 所 以 通常 都 可 以 很 快 地 将 主机 名 解析 出 来 。 
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因特网 传输 请 求 报 文 ， 以 及 服务 器 处 理 请 求 报 文 都 需要 时 间 。 
(4) 然后 ，Web 服务 器 会 回 送 HTTP 响应 ， 这 也 需要 花费 时 间 。 


这 些 TCP 网 络 时 延 的 大 小 取决 于 硬件 速度 、 网 络 和 服务 器 的 负载 ， 请 求 和 响应 报 文 
的 尺寸 ， 以 及 客户 端 和 服务 器 之 间 的 距离 。TCP 协议 的 技术 复杂 性 也 会 对 时 延 产生 
巨大 的 影响 。 


4.2.2. ”性 能 聚焦 区 域 
本 节 其 余部 分 列 出 了 一 些 会 对 HTTP 程序 员 产生 影响 的 、 最 常见 的 TCP 相关 时 延 ， 
其 中 包括 : 


° TCP 连接 建立 握手 ; 

° TCP 慢 启 动 拥塞 控制 ， 

° 数据 聚集 的 Nagle 算法 ; 

。 用 于 撒 带 确认 的 TCP 延迟 确认 算法 ，; 
° TIME WAIT 时 延 和 端口 耗 尽 。 





如 果 要 编写 高 性 能 的 HTTP 软件 ， 就 应 该 理解 上 面 的 每 一 个 因素 。 如 果 不 需要 进行 
这 个 级 别 的 性 能 优化 ， 可 以 跳 过 这 部 分 内 容 。 


4.2.3 TCP 连 接 的 握手 时 延 

建立 一 条 新 的 TCP 连接 时 ， 甚 至 是 在 发 送 任意 数据 之 前 ，TCP 软件 之 间 会 交换 一 系 
列 的 IP 分 组 ， 对 连接 的 有 关 参 数 进行 沟通 (参见 图 4-8)。 如 果 连 接 只 用 来 传送 少量 
数据 ， 这 些 交 换 过 程 就 会 严重 降低 HTTP 的 性 能 。 
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图 4-8 在 发 送 数据 乙 前 ，TCP 要 传送 两 个 分 组 来 建立 连接 
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TCP 连接 握手 需要 经 过 以 下 几 个 步骤 。 


(1) 请 求 新 的 TCP 连接 时 ， 客 户 端 要 向 服务 器 发 送 一 个 小 的 TCP 分 组 (通常 是 40 ~ 
60 个 字 节 )。 这 个 分 组 中 设置 了 一 个 特殊 的 SYN 标记， 说 明 这 是 一 个 连接 请 求 。 
(参见 图 4-8a) ° 





(2) 如 果 服 务 器 接受 了 连接 ， 就 会 对 一 些 连接 参数 进行 计算 ， 并 向 客户 端 回 送 一 个 
TCP 分 组 ， 这 个 分 组 中 的 SYN 和 ACK 标记 都 被 置 位 ， 说 明 连 接 请 求 已 被 接受 
(参见 图 4-8b ) 。 





(3) 最 后 ， 客 户 端 向 服务 器 回 送 一 条 确认 信息 ， 通 知 它 连接 已 成 功 建立 (参见 图 4-8c)。 
现代 的 TCP 栈 都 允许 客户 端 在 这 个 确认 分 组 中 发 送 数据 。 


HTTP 程序 员 永 远 不 会 看 到 这 些 分 组 一 一 这 些 分 组 都 由 TCP/IP 软件 管理 ， 对 其 是 不 
可 见 的 。HTTP 程序 员 看 到 的 只 是 创建 TCP 连接 时 存在 的 时 延 。 


通常 HTTP 事务 都 不 会 交换 太 多 数据 ， 此 时 ，SYN/SYN+ACK 握手 (参见 图 4-8a 
和 图 4-8b) 会 产生 一 个 可 测量 的 时 延 。TCP 连接 的 ACK 分 组 (参见 图 4-8c) 通常 
都 足够 大 ， 可 以 承载 整个 HTTP 请 求 报 文 ”， 而 且 很 多 HTTP 服务 器 响应 报 文 都 可 
以 放 入 一 个 卫 分 组 中 去 〈 比 如， 响应 是 包含 了 装饰 性 图 片 的 小 型 HTML 文件 ， 或 
者 是 对 浏览 器 高 速 缓存 请 求 产 生 的 304 Not Modified 响应 ) 。 





























最 后 的 结果 是 ， 小 的 HTTP 事务 可 能 会 在 TCP 建立 上 花费 50% ， 或 更 多 的 时 间 。 后 
面 的 小 节 会 讨论 HTTP 是 如 何 通过 重用 现存 连接 ， 来 减 小 这 种 TCP 建立 时 延 所 造成 
的 影响 的 。 


4.2.4 延迟 确认 
由 于 因特网 自身 无 法 确保 可 靠 的 分 组 传输 (因特网 路 由 器 超 负荷 的 话 ， 可 以 随意 丢 
弃 分 组 ) ， 所 以 TCP 实现 了 自己 的 确认 机 制 来 确保 数据 的 成 功 传输 。 


每 个 TCP 段 都 有 一 个 序列 号 和 数据 完整 性 校 验 和 。 每 个 段 的 接收 者 收 到 完好 的 段 
时 ， 都 会 向 发 送 者 回 送 小 的 确认 分 组 。 如 果 发 送 者 没有 在 指定 的 窗口 时 间 内 收 到 确 
认 信息 ， 发 送 者 就 认为 分 组 已 被 破坏 或 损毁 ， 并 重 发 数据 。 

由 于 确认 报 文 很 小 ， 所 以 TCP 允许 在 发 往 相同 方向 的 输出 数据 分 组 中 对 其 进行 “ 撒 


带 ”。TCP 将 返回 的 确认 信息 与 输出 的 数据 分 组 结合 在 一 起 ， 可 以 更 有 效 地 利用 网 
络 。 为 了 增加 确认 报 文 找到 同 向 传输 数据 分 组 的 可 能 性 ， 很 多 TCP 栈 都 实现 了 一 种 

















注 4: 因特网 流量 中 的 IP 分 组 通常 是 几 百 字 节 ， 本 地 流量 中 的 IP 分 组 为 1500 字 市 左右 。 
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“延迟 确认 ”算法 。 延 迟 确 认 算 法 会 在 一 个 特定 的 窗口 时 间 (通常 是 100 ~ 2003€ 
秒 ) 内 将 输出 确认 存放 在 缓冲 区 中 ， 以 寻找 能 够 撒 带 它 的 输出 数据 分 组 。 如 果 在 那 
个 时 间 段 内 没有 输出 数据 分 组 ， 就 将 确认 信息 放 在 单独 的 分 组 中 传送 。 


但 是 ，HTTP 具有 双 峰 特征 的 请 求 -应 答 行为 降低 了 撒 带 信息 的 可 能 。 当 希望 有 相 
有 反方 向 回 传 分 组 的 时 候 ， 偏 偏 没 有 那么 多 。 通 常 ， 延 迟 确认 算法 会 引入 相当 大 的 时 
延 。 根 据 所 使 用 操作 系统 的 不 同 ， 可 以 调整 或 禁止 延迟 确认 算法 。 


在 对 TCP 栈 的 任何 参数 进行 修改 之 前 ， 一 定 要 对 自己 在 做 什么 有 清醒 的 认识 。TCP 
中 引入 这 些 算 法 的 目的 是 防止 设计 欠 佳 的 应 用 程序 对 因特网 造成 破坏 。 对 TCP 配置 
进行 的 任意 修改 ， 都 要 绝对 确保 应 用 程序 不 会 引发 这 些 算法 所 要 避免 的 问题 。 























4.2.5 TCP 慢 启动 


TCP 数据 传输 的 性 能 还 取决 于 TCP 连接 的 使 用 期 (age)。TCP 连接 会 随 着 时 间 进 行 
自我 “调谐 ”， 起 初 会 限制 连接 的 最 大 速度 ， 如 果 数 据 成 功 传输 ， 会 随 着 时 间 的 推移 
提高 传输 的 速度 。 这 种 调谐 被 称 为 TCP RÈ (slow start) ， 用 于 防止 因特网 的 突 
然 过 载 和 拥塞 。 


TCP 慢 启 动 限制 了 一 个 TCP 端点 在 任意 时 刻 可 以 传输 的 分 组 数 。 简 单 来 说 ， 每 成 功 
接收 一 个 分 组 ， 发 送 端 就 有 了 发 送 另 外 两 个 分 组 的 权限 。 如 果 某 个 HTTP 事务 有 大 
量 数据 要 发 送 ， 是 不 能 一 次 将 所 有 分 组 都 发 送出 去 的 。 必 须发 送 一 个 分 组 ， 等 待 确 
U: 然后 可 以 发 送 两 个 分 组 ， 每 个 分 组 都 必须 被 确认 ， 这 样 就 可 以 发 送 四 个 分 组 了 ， 
以 此 类 推 。 这 种 方式 被 称 为 “打开 拥塞 窗口 ”。 

由 于 存在 这 种 拥塞 控制 特性 ， 所 以 新 连接 的 传输 速度 会 比 已 经 交换 过 一 定量 数据 的 、 
“已 调谐 ”连接 慢 一 些 。 由 于 已 调谐 连接 要 更 快 一 些 ， 所 以 HTTP 中 有 一 些 可 以 重用 
现存 连接 的 工具 。 本 章 稍 后 会 介绍 这 些 HTTP “持久 连接 ”。 











4.2.6 Nagle 算 法 与 TCP_NODELAY 

TCP 有 一 个 数据 流 接 口 ， 应 用 程序 可 以 通过 它 将 任意 尺寸 的 数据 放 入 TCP 栈 中 一 一 
即使 一 次 只 放 一 个 字 市 也 可 以 ! 但 是 ， 每 个 TCP 段 中 都 至 少 装载 了 40 个 字 节 的 标 
记 和 首部 ， 所 以 如 果 TCP 发 送 了 大 量 包 含 少量 数据 的 分 组 ， 网 络 的 性 能 就 会 严重 
TEE. 





注 5: 发 送 大 量 单字 节 分 组 的 行为 称 为 “发 送 端 傻 窗口 综合 症 ”"。 这 种 行为 效率 很 低 、 违 反 社会 道德 ,而且 
可 能 会 影响 其 他 的 因特网 流量 。 
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Nagle 算法 (根据 其 发 明 者 John Nagle 命名 ) 试图 在 发 送 一 个 分 组 之 前 ， 将 大 量 
TCP 数据 绑 定 在 一 起 ， 以 提高 网 络 效率 。REFC 896 “IP/TCP 互连网 络 中 的 拥塞 控 
制 ” 对 此 算法 进行 了 描述 。 


Nagle 算法 鼓励 发 送 全 尺寸 (LAN 上 最 大 尺寸 的 分 组 大 约 是 1500 字 市 ， 在 因特网 
上 是 几 百 字 节 ) 的 段 。 只 有 当 所 有 其 他 分 组 都 被 确认 之 后 ，Nagle 算法 才 允 许 发 送 
非 全 尺寸 的 分 组 。 如 果 其 他 分 组 仍然 在 传输 过 程 中 ， 就 将 那 部 分 数据 缓存 起 来 。 只 
有 当 挂 起 分 组 被 确认 ， 或 者 缓存 中 积累 了 足够 发 送 一 个 全 尺寸 分 组 的 数据 时 ， 才 会 
将 缓存 的 数据 发 送出 去 。” 


Nagle 算法 会 引发 儿 种 HTTP 性 能 问题 。 首 先 ， 小 的 HTTP 报 文 可 能 无 法 填 满 一 个 
分 组 ， 可 能 会 因为 等 待 那些 永远 不 会 到 来 的 额外 数据 而 产生 时 延 。 其 次 ，Nasgle 算 
法 与 延迟 确认 之 间 的 交互 存在 问题 一 一 Nagle 算法 会 阻止 数据 的 发 送 ， 直 到 有 确认 
分 组 抵达 为 止 ， 但 确认 分 组 自身 会 被 延迟 确认 算法 延迟 100 ~ 200 毫秒 。 ' 











HTTP 应 用 程序 常常 会 在 自己 的 栈 中 设置 参数 TCP_NODELAY， 禁 用 Nagle 算法 ， 
提高 性 能 。 如 果 要 这 么 做 的 话 ， 一 定 要 确保 会 向 TCP 写 入 大 块 的 数据 ， 这 样 就 不 会 
产生 一 堆 小 分 组 了 。 











4.2.7 TIME_WAIT 累 积 与 端口 耗 尽 

TIME WAIT 端口 耗 尽 是 很 严重 的 性 能 问题 ， 会 影响 到 性 能 基准 ， 但 在 现实 中 相对 
较 少 出 现 。 大 多 数 遇 到 性 能 基准 问题 的 人 最 终 都 会 磁 到 这 个 问题 ， 而 且 性 能 都 会 变 
得 出 乎 意料 地 差 ， 所 以 这 个 问题 值得 特别 关注 。 


当 某 个 TCP 端点 关闭 TCP 连接 时 ， 会 在 内 存 中 维护 一 个 小 的 控制 块 ， 用 来 记录 最 
近 所 关闭 连接 的 IP 地 址 和 端口 号 。 这 类 信息 只 会 维持 一 小 段 时 间 ， 通常 是 所 估计 的 
最 大 分 段 使 用 期 的 两 倍 〈 称 为 2MSL， 通 常 为 2 分钟 ) 左右 ， 以 确保 在 这 段 时 间 内 
不 会 创建 具有 相同 地 址 和 端口 号 的 新 连接 。 实 际 上 ， 这 个 算法 可 以 防止 在 两 分 钟 内 
创建 、 关 闭 并 重新 创建 两 个 具有 相同 IP 地 址 和 端口 号 的 连接 。 


现在 高 速 路 由 器 的 使 用 ， 使 得 重复 分 组 几乎 不 可 能 在 连接 关闭 的 儿 分 钟 之 后 ， 出 现 
在 服务 器 上 。 有 些 操作 系统 会 将 2MSL 设置 为 一 个 较 小 的 值 ， 但 修改 此 值 时 要 特别 








c— 








iE 6: 这 个 算法 有 几 种 变 体 ,包括 对 超时 和 确认 逻辑 的 修改 ,但 基本 算法 会 使 数据 的 缓存 比 一 个 TCP 段 小 一 些 。 

注 7: 使 用 管道 化 连接 (本 章 稍 后 介绍 ) 时 这 些 问题 可 能 会 更 加 严重 ， 因 为 客户 端 可 能 会 有 多 条 报 文 要 发 送 
给 同一 个 服务 器 ， 而 且 不 希望 有 时 延 存 在 。 

注 8: 将 2MSL 的 值 取 为 2 分 钟 是 有 历史 原因 的 。 很 早 以 前 ， 路 由 器 的 速度 还 很 慢 ， 人 们 估计 ， 在 将 一 个 分 
组 的 复制 副本 丢弃 之 前 ， 它 可 以 在 因特网 队列 中 保留 最 多 一 分 钟 的 时 间 。 现 在 ， 最 大 分 段 生存 期 要 小 
得 多 了 。 
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小 心 。 分 组 确实 会 被 复制 ， 如 果 来 自 之 前 连接 的 复制 分 组 插入 了 有 具有 相同 连接 值 的 
新 TCP 流 ， 会 破坏 TCP 数据 。 

2MSL 的 连接 关闭 延迟 通常 不 是 什么 问题 ， 但 在 性 能 基准 环境 下 就 可 能 会 成 为 一 个 
问题 。 进 行 性 能 基准 测试 时 ， 通常 只 有 一 台 或 几 台 用 来 产生 流量 的 计算 机 连接 到 某 
系统 中 去 ， 这 样 就 限制 了 连接 到 服务 器 的 客户 端 IP 地 址 数 。 而 且 ， 服 务 器 通常 会 在 
HTTP 的 默认 TCP 端口 80 上 进行 监听 。 用 TIME_WAIT 防止 端口 号 重用 时 ， 这 些 
情况 也 限制 了 可 用 的 连接 值 组 合 。 


在 只 有 一 个 客户 端 和 一 台 Web 服务 器 的 异常 情况 下 ， 构 建 一 条 TCP 连接 的 4 个 值 : 














«source-IP-address, source-port, destination-IP-address, destination-port> 


其 中 的 3 个 都 是 固定 的 一 一 只 有 源 端 口号 可 以 随意 改变 : 





«client-IP, Ssource-port, server-IP, 805 


客户 端 每 次 连接 到 服务 器 上 去 时 ， 都 会 获得 一 个 新 的 源 端 口 ， 以 实现 连接 的 唯一 性 。 
但 由 于 可 用 源 端 口 的 数量 有 限 (比如 ，60 000 个 ), 而 且 在 2MSL 秒 (比如 ，120 





P) 内 连接 是 无 法 重用 的 ， 连 接 率 就 被 限制 在 了 60 000/120=500 次 / 秒 。 如 果 再 不 
断 进 行 优化 ， 并 且 服 务 器 的 连接 率 不 高 于 500 次 / 秒 ， 就 可 确保 不 会 遇 到 TIME_ 
WAIT 端口 耗 尽 问 题 。 要 修正 这 个 问题 ， 可 以 增加 客户 端 负载 生成 机 器 的 数量 ,或 
者 确保 客户 端 和 服务 器 在 循环 使 用 几 个 虚拟 IP 地 址 以 增加 更 多 的 连接 组 合 。 
即使 疫 有 遇 到 端口 耗 尽 问题 ， 也 要 特别 小 心 有 大 量 连 接 处 于 打开 状态 的 情况 ， 或 为 
处 于 等 待 状态 的 连接 分 配 了 大 量 控制 块 的 情况 。 在 有 大 量 打开 连接 或 控制 块 的 情况 
下 ， 有 些 操作 系统 的 速度 会 严重 减缓 。 


4.3 HTTP 连接 的 处 理 

本 章 的 前 两 节 对 TCP 连接 及 其 性 能 含义 进行 了 精 要 的 介绍 。 要 想 学 习 更 多 与 TCP 
联网 有 关 的 知识 ， 请 参见 本 章 末 尾 的 资源 列表 。 

现在 我 们 切 回 到 HTTP 上 来 。 本 章 其 余部 分 将 解释 操作 和 优化 连接 的 HTTP 技术 。 
我 们 从 HTTP 的 connection 首部 开始 介绍 ， 这 是 HTTP 连接 管理 中 一 个 很 容易 被 
误解 ， 但 又 很 重要 的 部 分 。 然 后 会 介绍 一 些 HTTP 连接 优化 技术 。 





4.3.1 常 被 误解 的 connection 首 部 
HTTP 允许 在 客户 端 和 最 终 的 源 端 服务 器 之 间 存 在 一 串 HTTP 中 间 实 体 (代理 、 高 
速 缓存 等 )。 可 以 从 客户 端 开始 ， 逐 跳 地 将 HTTP 报 文 经 过 这 些 中 间 设 备 ， 转 发 到 源 
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端 服务 器 上 去 (或 者 进行 反 向 传输 )。 


在 某 些 情况 下 ， 两 个 相 邻 的 HITP 应 用 程序 会 为 它们 共享 的 连接 应 用 一 组 选项 。 
Eo m 个 由 逗号 分 隔 的 连接 标签 列表 ， 这 些 标签 为 

连接 指定 了 一 些 不 会 传播 到 其 他 连接 中 去 的 选项 。 比 如 ， 可 以 用 connection: 
close 来 说 明 发 送 完 下 一 条 报 文 之 后 必须 关闭 的 连接 。 


Connection 首部 可 以 承载 3 种 不 同类 型 的 标签 ， 因 此 有 了 时 会 很 令 人 费解 : 


° HTTP 首部 字段 名 ， 列 出 了 只 与 此 连接 有 关 的 首部 ， 
。 任意 标签 值 ， 用 于 描述 此 连接 的 非 标 准 选项 ，; 
* fü close， 说 明 操 作 完 成 之 后 需 关 闭 这 条 持久 连接 。 


如 果 连 接 标签 中 包含 了 一 个 HTTP 首部 字段 的 名 称 ， 那 么 这 个 首部 字段 就 包含 了 
与 一 些 连 接 有 关 的 信息 ， 不 能 将 其 转发 出 去 。 在 将 报 文 转发 出 去 之 前 ， 必 须 删除 
Connection 首部 列 出 的 所 有 首部 字段 。 由 于 connection 首部 可 以 防止 无 意 中 对 
本 地 首部 的 转发 ， 因 此 将 逐 跳 首部 名 放 入 Connection 首部 被 称 为 “对 首部 的 保 
护 ” 图 4-9 显示 了 一 个 这 样 的 例子 。 




















首部 说 明 : 不 应 该 转发 Meter 首 部 ， 要 应 
用 假想 的 bill1-my-credit-card 选 项 ， 
且 本 次 事务 结束 之 后 应 关闭 持久 连接 。 











HTTP/1.1 200 OK 

Cache-control: max-age=3600 

Connection: meter, close, bill-my-credit-card 
Meter: max-uses=3, max-refuses=6, dont-report 




















客户 端 服务 器 











& 4-9 connection 首部 允许 发 送 端 指定 与 连接 有 关 的 选项 


HTTP 应 用 程序 收 到 一 条 带 有 Connection 首部 的 报 文 时 ， 接 收 端 会 解析 发 送 端 
请 求 的 所 有 选项 ， 并 将 其 应 用 。 然 后 会 在 将 此 报 文 转发 给 下 一 删除 
Connection 首部 以 及 connection 中 列 出 的 所 有 首部 。 而 且 ， 可 能 少量 没 
有 作为 connection 首部 值 列 出 ， 但 一 定 不 能 被 代理 转发 的 s 其 中 包括 


Prxoy-Authenticate, Proxy-Connection, Transfer-Encoding 和 Upgrade, 


更 多 有 关 Connection 首部 的 内 容 请 参见 附录 C. 


4.3.2 ” 串 行 事务 处 理 时 延 
如 果 只 对 连接 进行 简单 的 管理 ，TCP 的 性 能 时 延 可 能 会 到 加 起 来 。 比 如 ， 假 设 有 一 
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个 包含 了 3 个 戏 入 图 片 的 Web 页面。 浏览 器 需要 发 起 4 个 HTTP 事务 来 显示 此 页 面 : 
1 个 用 于 顶层 的 HTML 页 面 ，3 个 用 于 杠 入 的 图 片 。 如 果 每 个 事务 都 需要 〈 串 行 地 建 
XE) 一 条 新 的 连接 ， 那 么 连接 时 延 和 慢 启 动 时 延 就 会 厨 加 起 来 (参见 图 4-10)。” 
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客户 端 











图 4-10 4 个 事务 ( 串 行 ) 


除了 串 行 加 载 引入 的 实际 时 延 之 外 ， 加 载 一 幅 图 片 时 ， 
会 让 人 觉得 速度 很 慢 。 用 户 更 希望 能 够 同时 加 载 多 幅 图 片 。， 


串 行 加 载 的 另 一 个 缺点 是 ， 有 些 浏览 器 在 对 象 加 载 完毕 之 前 无 法 获知 对 象 的 尺寸 ， 
而 且 它 们 可 能 需要 尺寸 信息 来 决定 将 对 象 放 在 屏幕 的 什么 位 置 上 ， s s AME 
8 pue B. TRER EEREN. ERANT, PREN E as TT 

载 对 象 的 进度 很 正常 ， 但 用 户 面 对 的 却 是 一 个 空白 的 屏幕 ， 对 装载 的 进度 一 XB, ” 


还 有 几 种 现存 和 新 兴 的 方法 可 以 提高 HTTP 的 连接 性 能 。 后 面 几 节 讨 论 了 四 种 此 类 
技术 。 
。 并 行 连接 
通过 多 条 TCP 连接 发 起 并 发 的 HTTP 请 求 。 
。 持久 连接 
重用 TCP 连接， 以 消除 连接 及 关闭 时 延 。 




















管道 化 连接 
通过 共享 的 TCP 连接 发 起 并 发 的 HTTP 请 求 。 




















注 9: 根据 举 此 例 的 目的 ， 假 设 所 有 对 象 的 长 度 基本 上 都 一 样 ， 并 且 是 从 同一 台 服 务 器 发 出 的 ， 而 且 DNS 
条 目 被 缓存 了 ， 排 除了 DNS 的 查找 时 间 。 
ik 10: 即使 同时 加 载 多 幅 图 片 比 一 次 加 载 一 幅 图 片 要 慢 ， 人 们 也 会 有 同样 的 感觉 ! 用 户 通 常会 认为 多 幅 图 
片 同 时 加 载 要 快 一 些 。 
iE 11: HTML 的 设计 者 可 以 在 图 片 等 庶 入 式 对 象 的 HTML 标签 中 显 式 地 添加 宽 高 属性 ， 以 消除 这 种 “布局 
时 延 "。 显 式 地 提供 了 舱 入 图 片 的 宽度 和 高 度 ， 浏 览 器 就 可 以 在 从 服务 器 收 到 对 象 之 前 确定 图 形 的 布 
局 了 。 
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。 复 用 的 连接 
交替 传送 请 求 和 响应 报 文 (实验 阶段 )。 


4.4 ”并 行 连接 
如 前 所 述 ， 浏 览 器 可 以 先 完 整地 请 求 原始 的 HTML 页 面 ， 然 后 请 求 第 一 个 嵌入 对 
象 ， 然 后 请 求 第 二 个 谋 入 对 象 等 ， 以 这 种 简单 的 方式 对 每 个 谋 入 式 对 象 进行 串 行 处 
理 。 但 这 样 实在 是 太 慢 了 ! 


如 图 4-11 所 示 ，HTTP 允许 客户 端 打开 多 条 连接 ， 并 行 地 执行 A 在 
这 个 例子 中 ， 并 行 加 载 了 四 幅 栓 入 式 图 片 ， 每 个 事务 都 有 自己 的 TCP E., 

















因特网 
服务 器 1 


























图 4-11 页 面 上 的 每 个 组 件 都 包含 一 个 独立 的 HTTP 事务 


4.4.1 并 行 连接 可 能 会 提高 页 面 的 加 载 速度 
包含 嵌入 对 象 的 组 合 页 面 如 果 能 (通过 并 行 连接 ) 克服 单条 连接 的 空 载 时 间 和 带宽 
限制 ， 加 载 速度 也 会 有 所 提高 。 时 延 可 以 重 至 起 来 ， 而 且 如 果 单 条 连接 没有 充分 利 
用 客户 端的 因特网 带宽 ， 可 以 将 未 用 带宽 分 配 来 装载 其 他 对 象 。 


图 4-12 显示 了 并 行 连接 的 时 间 线 ， 比 图 4-10 要 快 得 多 。 首 先 装载 的 是 封闭 的 
HTML 页 面 ， 然 后 并 行 处 理 其 余 的 3 个 事务 ， 每 个 事务 都 有 自己 的 连接 。” 图 片 的 
装载 是 并 行 的 ， 连 接 的 时 延 也 是 重 肥 的 。 




















ik 12: 艇 入 的 组 件 不 一 定 都 在 同一 台 Web 服务 器 上 ， 可 以 同 多 台 服 务 器 建立 并 行 的 连接 。 
注 13: 由 于 软件 开销 的 存在 ， 每 个 连接 请 求 之 间 总 是 会 有 一 些小 的 时 延 ， 但 连接 请 求 和 传输 时 间 基 本 上 都 
是 重合 起 来 的 。 
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3/452, 3, 4 
事务 1 (并 行 连 接 ) 
ku 
4 4, 4 > 
服务 器 = ` E o^EVÉ 
hl Xe Y x: < 
L is EIC 0 T 
EU === Quia 
客户 端 — 
O NEA 
— 
会 有 一 小 段 软 件 时 延 ) 














4-12 4 个 事务 (并 行 ) 


44.2 并行 连接 不 一 定 更 快 


即使 并 行 连 接 的 速度 可 能 会 更 快 ， 但 并 不 一 定 总 是 更 快 。 客 户 端的 网 络 带 宽 不 
(比如 ， 浏 览 器 是 通过 一 个 28.8kbps 的 Modem 连接 到 因特网 上 去 的 ) 时 ， 
wi E ee ee et re qud 
HTTP 事务 就 会 很 容易 地 耗 尽 所 有 可 用 的 Modem 带宽 。 如 果 并 行 加 载 多 个 对 象 ， 

个 对 象 都 会 AEREN DTA = E IE Ue 
来 的 性 能 提升 就 很 小 ， 甚 至 没什么 提升 。， 


而 且 ， 打 开 大 量 连 接 会 消耗 很 多 内 存 资源 ， "s ite E 问 题 。 复 杂 的 Web 
页 面 可 能 会 有 数 十 或 数 百 个 内 散 对 象 。 客户 端 可 能 可 以 打开 数 百 个 连接 ， 但 Web 服 
务 器 通常 要 同时 处 理 很 多 其 他 用 户 的 请 求 ， s 器 希望 出 现 这 样 的 
情况 。 一 百 个 用 户 同时 发 出 申请 ， 每 个 用 户 打开 100 个 连接 ， 服 务 器 就 要 负责 处 理 
10 000 个 连接 。 这 会 造成 服务 器 性 能 的 严重 下 降 。 对 高 负荷 的 代理 来 说 也 同样 如 此 。 


实际 上 ， 浏 览 器 确实 使 用 了 并 行 连接 ， 但 它们 会 将 并 行 连 接 的 总 数 限制 为 一 个 较 小 
的 值 (通常 是 4 个 )。 服 务 器 可 以 随意 关闭 来 自 特定 客户 端的 超 量 连接 。 


4.4.3 并行 连接 可 能 让 人 “感觉 ”更 快 一 些 
好 了 ， 这 样 看 来 并 行 连接 并 不 总 是 能 使 页 面 加 载 得 更 快 一 些 。 但 如 前 所 述 ， 即 使 实 
际 上 它们 并 没有 加 快 页 面 的 传输 速度 ， 并 行 连接 通常 也 会 让 用 户 觉得 页 面 加 载 得 更 













































































注 14 实际 上 ， 多 条 连接 会 产生 一 些 额外 的 开销 ， 使 用 并 行 连接 装 栽 整个 页 面 所 需 的 时 间 很 可 能 比 品行 下 
载 的 时 间 更 长 。 
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快 了 ， 因 为 多 个 组 件 对 象 同时 出 现在 屏幕 上 时 ， 用 户 能 够 看 到 加 载 的 进展 。 ”如 果 
整个 屏幕 上 有 很 多 动作 在 进行 ， 即 使 实际 上 秒表 显示 整个 页 面 的 下 载 时 间 更 长 ， 人 
们 也 会 认为 Web 页 面 加 载 得 更 快 一 些 。 


45 持久 连接 


Web 客户 端 经 常会 打开 到 同一 个 站 点 的 连接 。 比 如 ,一 个 Web 页 面 上 的 大 部 分 内 
柑 图 片 通 常 都 来 自 同一 个 Web 站 点 ， 而 且 相 当 一 部 分 指 问 其 他 对 和 象 的 超 链 通 常 都 指 
向 同一 个 站 点 。 因 此 ， 初 始 化 了 对 某 服务 器 HTTP 请 求 的 应 用 程序 很 可 能 会 在 不 久 
的 将 来 对 那 台 服 务 器 发 起 更 多 的 请 求 〈 比 如 ， 获 取 在 线 图 片 ) 。 这 种 性 质 被 称 为 站 点 
局 部 性 (site locality), 








因此 ，HTTP/1.1 (以 及 HTTP/1.0 的 各 种 增强 版 本 ) 允许 HTTP 设备 在 事务 处 理 结束 
之 后 将 TCP 连接 保持 在 打开 状态 ， 以 便 为 未 来 的 HTTP 请 求 重用 现存 的 连接 。 在 事 
务 处 理 结束 之 后 仍然 保持 在 打开 状态 的 TCP 连接 被 称 为 持久 连接 。 非 持久 连接 会 在 
每 个 事务 结束 之 后 关闭 。 持 和 久 连 接 会 在 不 同事 务 之 间 保 持 打开 状态 ， 直 到 客户 端 或 
服务 器 决定 将 其 关闭 为 止 。 


重用 已 对 目标 服务 器 打开 的 空间 持久 连接 ， 就 可 以 避 开 缓慢 的 连接 建立 阶段 。 而 且 ， 
已 经 打开 的 连接 还 可 以 避免 慢 局 动 的 拥塞 适应 阶段 ， 以 便 更 快速 地 进行 数据 的 传输 。 














4.5.1 持久 以 及 并 行 连接 

我 们 看 到 ， 并 行 连接 可 以 提高 复合 页 面 的 传输 速度 。 但 并 行 连接 也 有 一 些 缺 点 。 

。 每 个 事务 都 会 打开 / 关闭 一 条 新 的 连接 ， 会 耗费 时 间 和 带宽 。 

。 由 于 TCP 慢 启动 特性 的 存在 ， 每 条 新 连接 的 性 能 都 会 有 所 降低 。 

。 可 打开 的 并 行 连接 数量 实际 上 是 有 限 的 。 

持久 连接 有 一 些 比 并 行 连接 更 好 的 地 方 。 持 久 连 接 降低 了 时 延 和 连接 建立 的 开销 ， 
将 连接 保持 在 已 调谐 状态 ， 而 且 减 少 了 打开 连接 的 潜在 数量 。 但 是 ， 管 理 持久 连接 











时 要 特别 小 心 ， 不 然 就 会 累积 出 大 量 的 空 亲 连接， 耗费 本 地 以 及 远程 客户 端 和 服务 
器 上 的 资源 。 


持久 连接 与 并 行 连接 配合 使 用 可 能 是 最 高 效 的 方式 。 现 在 ,很 多 Web 应 用 程序 都 会 
打开 少量 的 并 行 连接 ， 其 中 的 每 一 个 都 是 持久 连接 。 持 久 连 接 有 两 种 类 型 比较 老 

















注 15: 渐进 式 图 片 会 先 显 示 低 分 状 率 的 近似 图 形 ， 然 后 再 逐渐 增加 图 片 的 分 状 率 ， 而 随 着 渐进 式 图 片 应 用 
的 逐步 增加 ， 这 种 效果 就 更 加 明显 了 。 
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的 HTTP/1.0+“keep-alive” 连 接 ， 以 及 现代 的 HTTP/1.1“persistent” 连 接 。 在 接 
下 来 的 几 节 中 我 们 将 对 这 两 种 类 型 进行 介绍 。 


4.5.2 HTTP/1.0+ keep-alive 连 接 


大 约 从 1996 年 开始 ， 很 多 HTTP/1.0 浏览 器 和 服务 器 都 进行 了 扩展 ， 以 支持 一 种 被 
称 为 keep-alive 连接 的 早期 实验 型 持久 连接 。 这 些 早期 的 持久 连接 受到 了 一 些 互 操 
作 性 设计 方面 问题 的 困扰 ， 这 些 问 题 在 后 期 的 HTTP/1.1 版 本 中 都 得 到 了 修正 ， 但 
很 多 客户 端 和 服务 器 仍然 在 使 用 这 些 早期 的 keep-alive 连接 。 





4-13 显示 了 keep-alive 连接 的 一 些 性 能 优点 ， 图 中 将 在 串 行 连接 上 实现 4 个 
HTTP 事务 的 时 间 线 与 在 一 条 持久 连接 上 实现 同样 事务 所 需 的 时 间 线 进行 了 比较 。 
由 于 去 除了 进行 连接 和 关闭 连接 的 开销 ， 所 以 时 间 线 有 所 缩减 。” 








(a) 品行 连接 
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(b) 持久 连接 



























































事务 1 事务 2 事务 3 3⁄4 
4 4 4^ 4s > 
`Y Z ` = A E = n pem 
= i w/ 2 oi AB y `P 
服务 器 党 VE ES ARE VEGAS Sx 
E) NAC — od) Ge YE 
E xs x y * —- 
er 











E 4-13 4 个 事务 ( 串 行 与 持久 连接 ) 











注 16: 由 于 去 除了 慢 局 动 阶段 ， 请 求 和 响应 时 间 可 能 也 有 缩减 。 这 种 性 能 收益 在 图 中 没有 显示 出 来 。 














连接 管理 | 97 








91 














92 








4.5.3 Xeep-RAlLive 操 作 

keep-alive 已 经 不 再 使 用 了 ， 而 且 在 当前 的 HTTP/1.1 规范 中 也 没有 对 它 的 说 明了 。 
但 浏览 器 和 服务 器 对 keep-alive 握手 的 使 用 仍然 相当 广泛 ， 因 此 ，HTTP 的 实现 者 应 
该 做 好 与 之 进行 交互 操作 的 准备 。 现 在 我 们 来 快速 浏览 一 下 keep-alive 的 操作 。 对 
keep-alive 握手 更 详细 的 解释 请 参见 较 早 的 HTTP/1.1 规范 版 本 (比如 RFC 2068)。 




















实现 HTTP/1.0 keep-alive 连接 的 客户 端 可 以 通过 包含 Connection: Keep-Alive 
首部 请 求 将 一 条 连接 保持 在 打开 状态 。 

如 果 服 务 器 愿意 为 下 一 条 请 求 将 连接 保持 在 打开 状态 ， 就 在 响应 中 包含 相同 的 首部 
(参见 图 4-14) 。 如 果 响 应 中 没有 connection: Keep-Alive 首部 ， 客 户 端 就 认为 
服务 器 不 支持 keep-alive， 会 在 发 回响 应 报 文 之 后 关闭 连接 。 














GET /index.html HTTP/1.0 
Host: www.joes-hardware.com 
Connection: Keep-Alive 


客户 端 ”\ 服务 器 
HTTP/1.0 200 OK 
Content-type: text/html 
Content-length: 3104 
Connection: Keep-Alive 
































4-14 HTTP/1.0 keep-alive 事务 首部 的 握手 过 程 


4.5.4 Keep-Alive 选 项 

注意 ，keep-Alive 首部 只 是 请 求 将 连接 保持 在 活跃 状态 。 发 出 keep-alive 请 求 之 
后 ， 客 户 端 和 服务 器 并 不 一 定 会 同意 进行 keep-alive 会 话 。 它 们 可 以 在 任意 时 刻 关 
闭 空闲 的 keep-alive 连接 ， 并 可 随意 限制 keep-alive 连接 所 处 理事 务 的 数量 。 








可 以 用 Keep-Alive 通用 首部 中 指定 的 、 由 逗号 分 隔 的 选项 来 调节 keep-alive 的 

行为 。 

° 参数 timeout 是 在 Keep-Alive 响应 首部 发 送 的 。 它 估计 了 服务 器 希望 将 连接 
保持 在 活跃 状态 的 时 间 。 这 并 不 是 一 个 承诺 值 。 

° 参数 max 是 在 Keep-Alive 响应 首部 发 送 的 。 它 估计 了 服务 器 还 希望 为 多 少 个 
事务 保持 此 连接 的 活跃 状态 。 这 并 不 是 一 个 承诺 值 。 
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° Keep-Alive 首部 还 可 支持 任意 未 经 处 理 的 属性 , 这 些 属 性 主要 用 于 诊断 和 调试 。 


语法 为 name [-valuel. 


Keep-Alive 首部 完全 是 可 选 的 ， 但 只 有 在 提供 Connection: Keep-Alive 时 才 


Akb 
HE 


使 用 它 。 这 里 有 个 Keep-Alive 响应 首部 的 例子 ， 这 个 例子 说 明 服 务 器 最 多 还 会 六 
另外 5 个 事务 保持 连接 的 打开 状态 ， 或 者 将 打开 状态 保持 到 连接 空间 了 2 分钟 之 后 。 




















Connection: Keep-Alive 
Keep-Alive: max=5, timeout=120 


4.5.5 Keep-Alive 连 接 的 限制 和 规则 
使 用 keep-alive 连接 时 有 一 些 限 制 和 一 些 需 要 澄清 的 地 方 。 


° 在 HTTP/1.0 中 ，keep-alive 并 不 是 默认 使 用 的 。 客 户 端 必须 发 送 一 
Connection: Keep-Alive 请 求 首部 来 激活 keep-alive 连接 。 


A 


e Connection: Keep-Alive 首部 必须 随 所 有 希望 保持 持久 连接 的 报 文 一 起 发 送 。 


如 果 客 户 端 没有 发 送 Connection: Keep-Alive 首部 ， 服务 器 就 会 在 那 条 请 
之 后 关闭 连接 。 

° 通过 检测 响应 中 是 否 包 仿 Connection: Keep-Alive 响应 首部 ， 客 户 端 可 以 
断 服 务 器 是 否 会 在 发 出 响应 之 后 关闭 连接 。 





。 只 有 在 无 需 检 测 到 连接 的 关闭 即 可 确定 报 文 实体 主体 部 分 长 度 的 情况 下 ， 才 能 


求 


*i 


HE 


将 连接 保持 在 打开 状态 一 一 也 就 是 说 实体 的 主体 部 分 必须 有 正确 的 content- 


Length， 有 多 部 件 媒 体 类 型 ， 或 者 用 分 块 传输 编码 的 方式 进行 了 编码 。 在 一 
keep-alive 信道 中 回 送 错误 的 Content-Length 是 很 糟糕 的 事 ， 这 样 的 话 ， 事 
处 理 的 另 一 端 就 无 法 精确 地 检测 出 一 条 报 文 的 结束 和 另 一 条 报 文 的 开始 了 。 

。 代理 和 网 关 必 须 执行 connection 首部 的 规则 。 代 理 或 网 关 必 须 在 将 报 文 转发 
去 或 将 其 高 速 缓存 之 前 ， 删 除 在 connection 首部 中 命名 的 所 有 首部 字段 以 
connection 首部 自身 。 

。 严格 来 说 ， 不 应 该 与 无 法 确定 是 否 支持 Connection 首部 的 代理 服务 器 建 
keep-alive 连接 ， 以 防止 出 现下 面 要 介绍 的 哑 代 理 问 题 。 在 实际 应 用 中 不 是 总 
做 到 这 一 点 的 。 

。 从 技术 上 来 讲 ， 应 该 忽略 所 有 来 自 HTTP/1.0 设备 的 connection 首部 字段 ( 
括 Connection: Keep-Alive)， 因 为 它们 可 能 是 由 比较 老 的 代理 服务 器 误 转 
的 。 但 实际 上 ， 尽 管 可 能 会 有 在 老 代 理 上 挂 起 的 危险 ， 有 些 客户 端 和 服务 器 还 
会 违反 这 条 规则 。 

。 除非 重复 发 送 请 求 会 产生 其 他 一 些 副 作用 ， 否 则 如 果 在 客户 端 收 到 完整 的 响应 
前 连接 就 关闭 了 ， 客 户 端 就 一 定 要 做 好 重 试 请 求 的 准备 。 
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4.5.6 Keep-Alive dx i8 


我 们 来 仔细 看 看 keep-alive 和 哑 代 理 中 一 些 比 较 微 妙 的 问题 。Web 客户 端的 
Connection: Keep-Alive 首部 应 该 只 会 对 这 条 离开 客户 端的 TCP 链 路 产生 影响 。 
这 就 是 将 其 称 作 “ 连 接 ” 首 部 的 原因 。 如 果 客 户 端正 在 与 一 台 Web 服务 器 对 话 ， 客 
户 端 可 以 发 送 一 个 Connection: Keep-Alive 首部 来 告知 服务 器 它 希 望 保 持 连 接 
的 活跃 状态 。 如 果 服 务 器 支持 keep-alive， 就 回 送 一 个 Connection: Keep-Alive 
首部 ， 否 则 就 不 回 送 。 





1. connection 首 部 和 盲 中 继 

问题 出 在 代理 上 一 一 尤其 是 那些 不 理解 Connection 首部 ， 而 且 不 知道 在 沿 着 转 
发 链 路 将 其 发 送出 去 之 前 ， 应 该 将 该 首部 删除 的 代理 。 很 多 老 的 或 简单 的 代理 都 
2E B v4 (blind relay)， 它 们 只 是 将 字 节 从 一 个 连接 转发 到 另 一 个 连接 中 去 ， 不 对 
connection 首部 进行 特殊 的 处 理 。 


假设 有 一 个 Web 客户 端正 通过 一 个 作为 请 中 继 使 用 的 哑 代 理 与 Web 服务 器 进行 对 
话 。 图 4-15 显示 的 就 是 这 种 情形 。 








(b) 服务 器 认为 对 方 请 求 
保持 连接 活跃 ， 因 此 处 理 
完 连 接 后 不 会 将 其 关闭 。 























(a) Connection:Keep-Alive (b) Connection: Keep-Alive 
ü l4 (c) Connection: 
(d) Connection: Keep-Alivellp [CH Keep-Alive 
客户 端 4 4 服务 器 
oÀ (c) 代理 会 忽略 连接 上 所 有 
下 一 条 请 求 ..…… 新 的 请 求 ， 等 待 连接 关闭 。 





< - 
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(e) 由 于 代理 不 会 对 其 进 
行 处 理 ， 所 以 客户 端 在 keep-alive 
连接 上 发 送 的 第 二 条 请 求 会 被 挂 起 。 























4-15 keep-alive 无 法 与 不 支持 Connection 首部 的 代理 进行 互 操 作 
这 幅 图 中 发 生 的 情况 如 下 所 示 。 





(1) 在 图 4-15a F, Web 客户 端 向 代理 发 送 了 一 条 报 文 ， 其 中 包含 了 connection: 
Keep-Alive 首部 ， 如 果 可 能 的 话 请 求 建立 一 条 keep-alive 连接 。 客 户 端 等 待 响 
应 ， 以 确定 对 方 是 否认 可 它 对 keep-alive 信道 的 请 求 。 

















(2) 哑 代理 收 到 了 这 条 HTTP 请 求 ， 但 它 并 不 理解 Connection 首部 (只 是 将 其 作 
为 一 个 扩展 首部 对 待 )。 代 理 不 知道 keep-alive 是 什么 意思 ， 因 此 只 是 沿 着 转发 
链 路 将 报 文 一 字 不 漏 地 发 送 给 服务 器 (图 4-15b)。 但 Connection 首部 是 个 逐 
跳 首 部 ， 只 适用 于 单条 传输 链 路 ， 不 应 该 治 着 传输 链 路 向 下 传输 。 接 下 来 ， 就 要 
发 生 一 些 很 糟糕 的 事情 了 。 





























(3) 在 图 4-15b 中 ， 经 过 中 继 的 HTTP 请 求 抵达 了 Web 服务 器 。 当 Web 服务 器 收 到 
经 过 代理 转发 的 connection: Keep-Alive 首部 时 ， 会 误 以 为 代理 (对 服务 器 
来 说 ， 这 个 代理 看 起 来 就 和 所 有 其 他 客户 端 一 样 ) 希望 进行 keep-alive 对 话 ! 对 
Web 服务 器 来 说 这 没什么 问题 一 一 它 同意 进行 keep-alive 对 话 ， 并 在 图 4-15c 中 
回 送 了 一 个 Connection: Keep-Alive 响应 首部 。 所 以 ， 此 时 Web 服务 器 认为 
它 在 与 代理 进行 keep-alive 对 话 ， 会 遵循 keep-alive 的 规则 。 但 代理 却 对 keep- 
alive 一 无 所 知 。 不 妙 。 


(4) 在 图 4-15d 中 ， 哑 代理 将 Web 服务 器 的 响应 报 文 回 送 给 客户 端 ， 并 将 来 自 Web 
服务 器 的 Connection: Keep-Alive 首部 一 起 传送 过 去 。 客 户 端 看 到 这 个 首 
部 ， 就 会 认为 代理 同意 进行 keep-alive 对 话 。 所 以 ， 此 时 客户 端 和 服务 器 都 认为 
它们 在 进行 keep-alive 对 话 ， 但 与 它们 进行 对 话 的 代理 却 对 keep-alive 一 无 所 知 。 


(5) 由 于 代理 对 keep-alive 一 无 所 知 ， 所 以 会 将 收 到 的 所 有 数据 都 回 送 给 客户 端 ， 然 
百 等 待 源 端 服务 器 关闭 连接 。 但 产 端 服务 器 会 认为 代理 已 经 显 式 地 请 求 它 将 连接 
保持 在 打开 状态 了 ， 所 以 不 会 去 关闭 连接 。 这 样 ， 代 理 就 会 挂 在 那里 等 待 连接 的 
关闭 。 























(6) 客户 端 在 图 4-15d 中 收 到 了 回 送 的 响应 报 文 时 ， 会 立即 转向 下 一 条 请 求 ， 在 keep- 
alive 连接 上 向 代理 发 送 另 一 条 请 求 (参见 图 4-15e)。 而 代理 并 不 认为 同一 条 连接 
上 会 有 其 他 请 求 到 来 ， 请 求 被 忽略 ， 剖 览 器 就 在 这 里 转圈 ， 不 会 有 任何 进展 了 。 























(7) 这 种 错误 的 通信 方式 会 使 浏览 器 一 直 处 于 挂 起 状态 ， 直 到 客户 端 或 服务 器 将 连接 
超时 ， 并 将 其 关闭 为 止 。” 








2. 代理 和 逐 跳 首部 

为 避免 此 类 代理 通信 问题 的 发 生 ， 现 代 的 代理 都 绝 不 能 转发 connection 首部 
和 所 有 名 字 出 现在 Connection 值 中 的 首部 。 因 此 ， 如 果 一 个 代理 收 到 了 一 个 
Connection: Keep-Alive 首部 ， 是 不 应 该 转发 Connection 首部 ， 或 所 有 名 为 
Keep-Alive 的 首部 的 。 














注 17: 在 很 多 类 似 的 情形 下 ， 盲 中 继 和 转发 的 握手 信息 都 会 引发 问题 。 
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另外 ， 还 有 几 个 不 能 作为 Connection 首部 值 列 出 ， 也 不 能 被 代理 转发 或 作为 
缓存 响应 使 用 的 首部 。 其 中 包括 Proxy-Authenticate. Proxy-Connection. 
Transfer-EncodingÍhUpgorade, €E, iE A31. 


4.5.7 插入 Proxy-Connection 

Netscape 的 浏览 器 及 代理 实现 者 们 提出 了 一 个 对 盲 中 继 问 题 的 变通 做 法 ， 这 种 做 法 
并 不 要 求 所 有 的 Web 应 用 程序 支持 高 版 本 的 HTTP。 这 种 变通 做 法 引入 了 一 个 名 为 
Proxy-Connection 的 新 首部 ， 解 决 了 在 客户 端 后 面 紧 跟着 一 个 盲 中 继 所 带 来 的 问 
题 一 一 但 并 没有 解决 所 有 其 他 情况 下 存在 的 问题 。 在 显 式 配置 了 代理 的 情况 下 ， 现 
代 浏 览 器 都 实现 了 Proxy-connection， 很 多 代理 都 能 够 理解 它 。 








问题 是 哑 代 理 育 目地 转发 Connection: Keep-Alive 之 类 的 逐 跳 首部 郑 出 了 麻烦 。 
逐 跳 首部 只 与 一 条 特定 的 连接 有 关 ， 不 能 被 转发 。 当 下 游 服务 器 误 将 转发 来 的 首部 
作为 来 自 代 理 自身 的 请 求解 释 ， 用 它 来 控制 自己 的 连接 时 ， 就 会 引发 问题 。 


在 网 景 的 变通 做 法 是 ， 浏 览 器 会 铝 代 理发 送 非 标准 的 Proxy-connection 扩展 首 
部 ， 而 不 是 官方 支持 的 车 名 的 Connection 首部 。 如 果 代 理 是 盲 中 继 ， 它 会 将 无 意 
义 的 Proxy-Connection 首部 转发 给 Web 服务 器 ， 服 务 器 会 忽略 此 首部 ， 不 会 带 
来 任何 问题 。 但 如 果 代 理 是 个 聪明 的 代理 (能够 理解 持久 连接 的 握手 动作 )， 就 用 一 
个 Connection 首部 取代 无 意义 的 Proxy-Connection 首部 ， 然 后 将 其 发 送 给 服 
务 器 ， 以 收 到 预期 的 效果 。 



































图 4-16a 一 图 4-16d 显示 了 盲 中 继 是 如 何 向 Web 服务 器 转发 Proxy-Connection 
首部 ， 而 不 带 来 任何 问题 的 ，Web 服务 器 忽略 了 这 个 首部 ， 这 样 在 客户 端 和 代理 ， 
或 者 代理 和 服务 器 之 间 就 不 会 建立 起 keep-alive 连接 了 。 图 4-16e ~ K 4-16h 中 那个 
聪明 的 代理 知道 Proxy-Connection 首部 是 对 keep-alive 对 话 的 请 求 ， 它 会 发 送 自 
己 的 Connection: Keep-Alive 首部 来 建立 keep-alive 连接 。 


在 客户 端 和 服务 器 之 间 只 有 一 个 代理 时 可 以 用 这 种 方案 来 解决 问题 。 但 如 图 4-17 所 
示 ， 如 果 在 哑 代 理 的 任意 一 侧 还 有 一 个 聪明 的 代理 ， 这 个 问题 就 会 再 次 露头 了 。 


而 且 ， 网 络 中 出 现 “ 不 可 见 ” 代 理 的 情况 现在 变 得 很 常见 了 ， 这 些 代 理 可 以 是 防火 
墙 、 拦 截 缓存 ， 或 者 是 反 向 代理 服务 器 的 加 速 器 。 这 些 设备 对 浏览 器 是 不 可 见 的 ， 
所 以 浏览 器 不 会 向 它们 发 送 Proxy-Connection 首部 。 透 明 的 Web 应 用 程序 正确 
地 实现 持久 连接 是 非常 重要 的 。 





























服务 器 不 认识 Proxy-Connection 首 部 ， 将 其 忽略 。 没 有 建立 keep-alive 连 接 。 


(a) Proxy-Connection: E (b) Proxy-Connection: 8 


E m 
^ MPO 


(c) 没有 connection 首 部 


I 服务 器 








客户 端 4 























哑 代 理 转发 了 Proxy-Connection 首 部 ， 服 务 器 将 其 忽略 。 








代理 识别 出 了 Proxy-Connection 首 部 ， 同 意 与 客户 端 进 
行 keep-alive 对 话 ， 可 能 还 会 (可 选 地 ) 决定 与 服务 器 
(f)Connection: Keep-Alive 
iy 


建立 一 条 keep-alive 连 接 。 
(g) Connection: Keep-Alive, 


(e) Proxy-Connection: Tiii 
ll 服务 器 
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i Connection: Keep-Alive 




















) 
Ex 27 聪 明 的 代理 








q 


聪明 的 代理 理解 了 Proxy-Connection 首 部 ， 并 主动 
向 服务 器 发 送 了 一 个 Connection: Keep-Alive 首 部 。 


drum 4 
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4-16 Proxy-Connection 首部 修正 了 单个 言 中 继 带 来 的 问题 





(a) (b) (c) 


Proxy-Connection: Keep-Alive Proxy-Connection: Keep-Alive Connection: Keep-Alive 
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Connection: Keep-Alive Connection: Keep-Alive Connection: Keep-Alive 
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"m dd 服务 器 
客户 端 O í q 
呈 代 理 无 意识 地 向 浏览 器 和 聪明 的 代理 广播 Keep-Alive。 
(g) (h) G) 
Proxy-Connection: Keep-Alive Connection: Keep-Alive Connection: Keep-Alive 
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Connection: Keep-Alive Connection: Keep-Alive Connection: Keep-Alive 
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服务 器 





EEA ! | 
客户 端 4 q ( 


哑 代 理 无 意识 地 向 聪明 的 代理 和 服务 器 广播 Keep-Alive。 











B 4-17 对 有 多 层次 代理 的 情况 ，Proxy-Connection 仍然 无 法 解决 问题 
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4.5.8 HTTP/1.1 持 久 连 接 


HTTP/1.1 逐渐 停止 了 对 keep-alive 连接 的 支持 ， 用 一 种 名 为 持久 连接 (persistent 
connection) 的 改进 型 设计 取代 了 它 。 持 久 连 接 的 目的 与 keep-alive 连接 的 目的 相 
同 ， 但 工作 机 制 更 优 一 些 。 


与 HTTP/1.0+ 的 keep-alive 连接 不 同 ，HTTP/1.1 持久 连接 在 默认 情况 下 是 激活 
除非 特别 指明 ， 否 则 HTTP/1.1 假定 所 有 连接 都 是 持久 的 。 要 在 事务 处 理 结 束 

后 将 连接 关闭 ，HTTP/1.1 应 用 程序 必须 向 报 文中 显 式 地 添加 一 个 connection: 
close 首部 。 这 是 与 以 前 的 HTTP 协议 版 本 很 重要 的 区 别 ， 在 以 前 的 版 本 中 keep- 
alive 连接 要 么 是 可 选 的 ， 要 么 根本 就 不 支持 。 


HTTP/1.1 客户 端 假定 在 收 到 响应 后 ， 除 非 响应 中 包含 了 Connection: close iT 
部 ， 不 然 HTTP/1.1 连接 就 仍 维持 在 打开 状态 。 但 是 ， 客 户 端 和 服务 器 仍然 可 以 随 
时 关闭 空闲 的 连接 。 不 发 送 Connection: close 并 不 意味 着 服务 器 承诺 永远 将 连 
接 保 持 在 打开 状态 。 


4.5.9 持久 连接 的 限制 和 规则 
在 持久 连接 的 使 用 中 有 以 下 限制 和 需要 说 清 的 问题 


° 发 送 了 Connection: close 请 求 首部 之 后 ， 客 户 端 就 无 法 在 那 条 连接 上 发 送 更 
多 的 请 求 了 。 

。 如 果 客 户 端 不 想 在 连接 上 发 送 其 他 请 求 了 ， 就 应 该 在 最 后 一 条 请 求 中 发 送 
Connection: close 请 求 首部 。 

° 只 有 当 连 接 上 所 有 的 报 文 都 有 正确 的 、 自 定义 报 文 长 度 时 一 一 也 就 是 说 ， 实 体 主 

体 部 分 的 长 度 都 和 相应 的 Content-Length 一 致 ， 或 者 是 用 分 块 传输 编码 方式 

编码 的 一 一 连接 才能 持久 保持 。 

HTTP/1.1 的 代理 必须 能 够 分 别管 理 与 客户 端 和 服务 器 的 持久 连接 一 一 每 个 持久 

连接 都 只 适用 于 一 跳 传输 。 

。 (由 于 较 老 的 代理 会 转发 connection 首部 ， 所 以 ) HTTP/1.1 的 代理 服务 器 不 应 
该 与 HTTP/1.0 客户 端 建立 持久 连接 ， 除 非 它 们 了 解 客户 端的 处 理 能 力 。 实 际 上 ， 
这 一 点 是 很 难 做 到 的 ， 很 多 三 商都 违背 了 这 一 原则 。 

。 尽管 服务 器 不 应 该 试图 在 传输 报 文 的 过 程 中 关闭 连接 ， 而 且 在 关闭 连接 之 前 至 少 
应 该 响应 一 条 请 求 ， 但 不 管 Connection 首部 取 了 什么 值 ，HTTP/1.1 设备 都 可 
以 在 任意 时 刻 关闭 连接 。 
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HTTP/1.1 应 用 程序 必须 能 够 从 异步 的 关闭 中 恢复 出 来 。 只 要 不 存在 可 能 会 累积 
起 来 的 副作用 ， 客 户 端 都 应 该 重 试 这 条 请 求 。 

除非 重复 发 起 请 求 会 产生 副作用 ， 否 则 如 果 在 客户 端 收 到 整 条 响应 之 前 连接 关闭 
了 ， 客 户 端 就 必须 要 重新 发 起 请 求 。 

一 个 用 户 客 户 端 对 任何 服务 器 或 代理 最 多 只 能 维护 两 条 持久 连接 ， 以 防 服务 器 
ee pua Soe i 
N 个 用 户 试图 访问 服务 器 的 话 ， 代 理 最 多 要 维持 2N 条 到 任意 服务 器 或 父 代理 的 
连接 。 














46 ”管道 化 连接 


HTTP/1.1 允许 在 持久 连接 上 可 选 地 使 用 请 求 管道 。 这 是 相对 于 keep-alive 连接 的 又 





一 性 能 优化 。 在 响应 到 达 之 前 ， 可 以 将 多 条 请 求 放 入 队列 。 当 第 一 条 请 求 通 过 网 络 














流向 地 球 另 一 端的 服务 器 时 ， 第 二 条 和 第 三 条 请 求 也 可 以 开始 发 送 了 。 在 高 时 延 网 
络 条 件 下 ， 这 样 做 可 以 降低 网 络 的 环 回 时 间 ， 提 高 性 能 


图 4-18a-c 显示 了 持久 连接 是 怎样 消除 TCP 连接 时 延 ， 以 及 管道 化 请 求 〈 参 见 
4-18c) 是 如 何 消除 传输 时 延 的 。 


对 管道 化 连接 有 几 条 限制 。 








如 果 HTTP 客户 端 无 法 确认 连接 是 持久 的 ， 就 不 应 该 使 用 管 

í nie ann 
此 如 果 收 到 的 响应 失 序 了 ， 就 没 办 法 将 其 与 请 求 匹配 起 来 了 。 

HTTP 客户 端 必须 做 好 连接 会 在 任意 时 刻 关 闭 的 准备 ， 还 要 准备 好 重 发 所 有 未 完 
成 的 管道 化 请 求 。 如 果 客 户 端 打开 了 一 条 持久 连接 ， 并 立即 发 出 了 10 条 请 求 ， 
服务 器 可 能 和 只 处 理 了 ,比方 说 ,5 条 请 求 之 后 关闭 连接 ， 剩 下 的 5 条 请 求 会 失败 ， 
客户 端 必须 能 够 应 对 这 些 过 早 关 闭 连接 的 情况 ， 重 新 发 出 这 些 请 求 。 

HTTP 客户 端 不 应 该 用 管道 化 的 方式 发 送 会 产生 副作用 的 请 求 ( 比 如 POST)。 总 
之 ， 出 错 的 时 候 ， 管 道 化 方式 会 阻碍 客户 端 了 解 服务 器 执行 的 是 一 系列 管道 化 请 
求 中 的 哪 一 些 。 由 于 无 法 安全 地 重 试 POST 这 样 的 非 需 等 请 求 ， 所 以 出 错时 ， 就 
存在 某 些 方法 永远 不 会 被 执行 的 风险 。 
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(c) 管道 化 持久 连接 
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图 4-18 4 个 事务 (管道 化 连接 ) 


4.7 关闭 连接 的 奥秘 
连接 管理 一 尤其 是 知道 在 什么 时 候 以 及 如 何 去 关 闭 连接 一 是 HTTP 的 实用 魔法 之 
一 。 这 个 问题 比 很 多 开发 者 起 初 意识 到 的 复杂 一 些 ， 而 且 没 有 多 少 资 料 涉及 这 个 问题 。 


4.7.1 “任意 ”解除 连接 
所 有 HTTP 客户 端 、 服 务 器 或 代理 都 可 以 在 任意 时 刻 关闭 一 条 TCP 传输 连接 。 通 党 
会 在 一 条 报 文 结束 时 关闭 连接 ，"* 但 出 错 的 时 候 ， 也 可 能 在 首部 行 的 中 间 ， 或 其 他 
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奇怪 的 地 方 关 闭 连 接 。 


对 管道 化 持久 连接 来 说 ， 这 种 情形 是 很 常见 的 。HTTP 应 用 程序 可 以 在 经 过 任意 
段 时 间 之 后 ， 关 闭 持久 连接 。 比 如 ， 在 持久 连接 空间 一 段 时 间 之 后 ， 服 务 器 可 能 会 
决定 将 其 关闭 。 

但 是 ， 服 务 器 永远 都 无 法 确定 在 它 关闭 “ 空 ”连接 的 那 一 刻 ， 在 线路 那 一 头 的 客 
户 端 有 没有 数据 要 发 送 。 如 果 出 现 这 种 情况 ， 客 户 端 就 会 在 写 入 半截 请 求 报 文 时 发 
现 出 现 了 连接 错误 。 











4.7.2 Content-Length 及 截 尾 操作 

每 条 HTTP 响应 都 应 该 有 精确 的 Content-Length 首部 ， 用 以 描述 响应 主体 的 尺 
寸 。 一 些 老 的 HTTP 服务 器 会 省 略 content -Length 首部 ， 或 者 包含 错误 的 长 度 指 
示 ， 这 样 就 要 依赖 服务 器 发 出 的 连接 关闭 来 说 明 数 据 的 真实 末尾 。 


客户 端 或 代理 收 到 一 条 随 连 接 关 闭 而 结束 的 HTTP 响应 ， 且 实际 传输 的 实体 长 度 与 
Content-Length 并 不 匹配 (RA Content-Length) 时 ， 接 收 端 就 应 该 质疑 长 
度 的 正确 性 。 


如 果 接 收 端 是 个 缓存 代理 ， 接 收 端 就 不 应 该 缓存 这 条 响应 〈 以 降低 今后 将 名 在 的 错 
误 报 文 混 合 起 来 的 可 能 )。 代 理应 该 将 有 问题 的 报 文 原封 不 动 地 转发 出 去 ， 而 不 应 该 
试图 去 “校正 ”content -Length， 以 维护 语义 的 透明 性 。 











4.7.3 ”连接 关闭 容 限 、 重 试 以 及 窘 等 性 

即使 在 非 错 误 情况 下 ， 连 接 也 可 以 在 任意 时 刻 关闭 。HTTP 应 用 程序 要 做 好 正确 处 
理 非 预 期 关闭 的 准备 。 如 果 在 客户 端 执 行事 务 的 过 程 中 ， 传 输 连接 关闭 了 ， 那 么 ， 
除非 事务 处 理会 带 来 一 些 副作用 ， 否 则 客户 端 就 应 该 重新 打开 连接 ， 并 重 试 一 次 。 
对 管道 化 连接 来 说 ， 这 种 情况 更 加 严重 一 些 。 客 户 端 可 以 将 大 量 请 求 放 入 队列 中 排 
队 ， 但 源 端 服务 器 可 以 关闭 连接 ， 这 样 就 会 留 下 大 量 未 处 理 的 请 求 ， 需 要 重新 调度 。 


副作用 是 很 重要 的 问题 。 如 果 在 发 送出 一 些 请 求 数 据 之 后 ， 收 到 返回 结果 之 前 ， 连 
接 关 闭 了 ， 客 户 端 就 无 法 百分之百 地 确定 服务 器 端 实际 激活 了 多 少 事 务 。 有 些 事务 ， 
比如 GET 一 个 静态 的 HTML 页 面 ， 可 以 反复 执行 多 次 ， 也 不 会 有 什么 变化 。 而 其 
他 一 些 事 务 ， 比 如 向 一 个 在 线 书店 POST 一 张 i 订单 ， 就 不 能 重复 执行 ， 不 然 会 有 下 
多 张 订 单 的 危险 。 





























注 18: 除非 服务 器 怀疑 出 现 了 客户 端 或 网 络 故 障 ， 否 则 就 不 应 该 在 请 求 的 中 间 关 闭 连接 。 
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如 果 一 个 事务 ， 不 管 是 执行 一 次 还 是 很 多 次 ， 得 到 的 结果 都 相同 ， 这 个 事务 就 是 震 
等 的 。 实 现 者 们 可 以 认为 GET、HEAD、PUT、DELETE、TRACE 和 OPTIONS 7j 
法 都 共享 这 一 特性 。 ”客户 端 不 应 该 以 管道 化 方式 传送 非 党 等 请 求 (比如 POST) 。 
否则 ， 传 输 连 接 的 过 早 终 止 就 会 造成 一 些 不 确定 的 后 果 。 要 发 送 一 条 非 浓 等 请 求 ， 
就 需要 等 待 来 自前 一 条 请 求 的 响应 状态 。 

尽管 用 户 Agent 代理 可 能 会 让 操作 员 来 选择 是 否 对 请 求 进行 重 试 ， 但 一 定 不 能 自动 
重 试 非 党 等 方法 或 序列 。 比 如 ， 大 多 数 浏 览 器 都 会 在 重 载 一 个 缓存 的 POST 响应 时 
提供 一 个 对 话 框 ， 询 问 用 户 是 否 希 望 再 次 发 起 事务 处 理 。 

















4.7.4 正常 关闭 连接 
如 图 4-19 所 示 ，TCP 连接 是 双向 的 。TCP 连接 的 每 一 端 都 有 一 个 输入 队列 和 一 个 
输出 队列 ， 用 于 数据 的 读 或 写 。 放 入 一 端 输 出 队列 中 的 数据 最 终 会 出 现在 另 一 端的 


输入 队列 中 。 
LIES: 


客户 端 服务 器 

















图 4-19 TCP 连接 是 双向 的 


1. 完全 关闭 与 半 关 闭 

应 用 程序 可 以 关闭 TCP 输入 和 输出 信道 中 的 任意 一 个 ， 或 者 将 两 者 都 关闭 了 。 和 套 
接 字 调 用 close () 会 将 TCP 连接 的 输入 和 输出 信道 都 关闭 了 。 这 被 称 作 “完全 关 
HI". Anl 4-20a 所 示 。 还 可 以 用 套 接 字 调 用 shutdown () 单独 关闭 输入 或 输出 信 
道 。 这 被 称 为 “ 半 关 闭 ”， 如 图 4-20b 所 示 。 





2. TCP 关 闭 及 重 置 错误 

简单 的 HTTP 应 用 程序 可 以 只 使 用 完全 关闭 。 但 当 应 用 程序 开始 与 很 多 其 他 类 型 的 
HTTP 客户 端 、 服 务 器 和 代理 进行 对 话 且 开始 使 用 管道 化 持久 连接 上 时， 使 用 半 关 闭 
来 防止 对 等 实体 收 到 非 预 期 的 写 和 错误 就 变 得 很 重要 了 。 





E 19: 基于 GET 构建 动态 表单 的 管理 者 们 要 确保 这 些 表 单 是 备 等 的 。 
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(a) 服 务 器 完全 关闭 
输出 输入 
客户 端 服务 器 
(b) 服 务 器 输出 信道 半 关闭 (正常 关闭 ) 
Ç — 
输 pir 输入 


由 LU 



































客户 端 服务 器 
(c) 服 务 器 输入 信道 半 关 闭 

Li. r7 

客户 端 服务 器 











4-20 ”完全 关闭 和 半 关 闭 


总 之 ， 关 闭 连接 的 输出 信道 总 是 很 安全 的 。 连 接 另 一 端的 对 等 实体 会 在 从 其 缓冲 区 
中 读 出 所 有 数据 之 后 收 到 一 条 通知 ， 说 明 流 结束 了 ， 这 样 它 就 知道 你 将 连接 关闭 了 。 


关闭 连接 的 输入 信道 比较 危险 ， 除 非 你 知道 另 一 端 不 打算 再 发 送 其 他 数据 了 。 如 果 
另 一 端 向 你 已 关闭 的 输入 信道 发 送 数据 ， 操 作 系统 就 会 向 另 一 端的 机 器 回 送 一 条 
TCP“ 连 接 被 对 端 重 置 ” 的 报 文 ， 如 图 4-21 所 示 。 大 部 分 操作 系统 都 会 将 这 种 情况 
作为 很 严重 的 错误 来 处 理 ， 删 除 对 端 还 未 读 取 的 所 有 缓存 数据 。 对 管道 化 连接 来 说 ， 
这 是 非常 糟糕 的 事情 。 
































图 4-21 将 数据 传送 到 已 关闭 连接 时 会 产生 “连接 被 对 端 重 置 ”错误 


比如 你 已 经 在 一 条 持久 连接 上 发 送 了 10 条 管道 式 请 求 了 ， 响 应 也 已 经 收 到 了 ， 正 
在 操作 系统 的 缓冲 区 中 存 着 呢 (但 应 用 程序 还 未 将 其 读 走 )。 现 在 ,假设 你 发 送 了 
第 11 条 请 求 ， 但 服务 器 认为 你 使 用 这 条 连接 的 时 间 已 经 够 长 了 ， 决 定 将 其 关闭 。 那 
么 你 的 第 11 条 请 求 就 会 被 发 送 到 一 条 已 关闭 的 连接 上 去 ， 并 会 向 你 回 送 一 条 重 置 信 
息 。 这 个 重 置信 息 会 清空 你 的 输入 缓冲 区 。 
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当 你 最 终 要 去 读 取 数据 的 时 候 ， 会 得 到 一 个 连接 被 对 端 重 置 的 错误 ， 已 缓存 的 未 读 
响应 数据 都 丢失 了 ， 尽 管 其 中 的 大 部 分 都 已 经 成 功 抵达 你 的 机 器 了 。 


3. 正常 关闭 
HTTP 规范 建议 ， 当 客户 端 或 服务 器 突然 要 关闭 一 条 连接 时 ， 应 该 “正常 地 关闭 传 
输 连 接 ”， 但 它 并 没有 说 明 应 该 如 何 去 做 。 


总 之 ， 实 现 正 常 关 闭 的 应 用 程序 首先 应 该 关闭 它们 的 输出 信道 ， 然 后 等 待 连接 另 一 
端的 对 等 实体 关闭 它 的 输出 信道 。 当 两 端 都 告诉 对 方 它们 不 会 再 发 送 任何 数据 (Ee 
如 关闭 输出 信道 ) 之 后 ， 连 接 就 会 被 完全 关闭 ， 而 不 会 有 重 置 的 危险 。 

但 不 地 的 是 ， 无 法 确保 对 等 实体 会 实现 半 关 闭 ， 或 对 其 进行 检查 。 因 此 ， 想 要 正 稼 
关闭 连接 的 应 用 程序 应 该 先 半 关 闭 甚 输出 信道 ， 然 后 周期 性 地 检查 其 输入 信道 的 状 
S (查找 数据 ， 或 流 的 末尾 )。 如 果 在 一 定 的 时 间 区 间 内 对 端 没 有 关闭 输入 信道 ， 应 
用 程序 可 以 强制 关闭 连接 ， 以 节省 资源 。 


4.8 更 多 信息 


到 这 里 我 们 对 HTTP 通道 事务 处 理 的 介绍 就 结束 了 。 更 多 有 关 TCP 性 能 和 HTTP ë 
接管 理 功能 的 内 容 请 参见 下 列 参考 资源 。 














4.8.4 HTTP 连接 


* http://www ietf.org/rfc/rfc2616.txt 
RFC 2616,“ 超 文本 传输 协议 一 一 HTTP/1.1” 是 HTTP/1.1 的 官方 规范 ， 解 释 了 
并 行 、 持 久 和 管道 式 HTTP 连接 的 使 用 ， 以 及 用 于 实现 这 些 连 接 的 HTTP 首部 字 
段 。 此 文档 并 未 涵盖 对 底层 TCP 连接 的 正确 使 用 。 

* http://www ietf.org/rfc/rfc2068.txt 
RFC 2068 是 HTTP/1.1 协议 的 1997 年 的 版 本 。 其 中 包含 了 RFC 2616 中 没有 的 、 
对 HTTP/1.0+ keep-alive 连接 的 解释 。 





° http://www.ics.uci.edu/pub/ietf/http/draft-ietf-http-connection-00.txt 
这 个 过 期 的 因特网 草案 “HTTP Connection Management", (“HTTP 连接 管理 ”) 
探讨 了 HTTP 连接 管理 面临 的 问题 。 





4.8. ”HTTP 性 能 问题 
° http://www.w3.org/Protocols/HTTP/Performance/ 





这 个 名 为 “HTTP Performance Overview" (“HTTP 性 能 概览 ">) 的 W3C Web 页 
HEE TILAS HTTP 性 能 和 连接 管理 有 关 的 文章 和 一 些 工 具 。 


http://www.w3.org/Protocols/HTTP/1.0/HTTPPerformance.html 

这 个 由 Simon Spero 制作 的 简短 备忘录 “Analysis of HTTP Performance Proble- 
ms” ( “HTTP 性 能 问题 分 析 ”) 是 最 早 (1994 Æ) 对 HTTP 连接 性 能 进行 评估 的 
文献 之 一 。 对 早期 由 于 缺乏 连接 建立 、 慢 启动 和 连接 共享 所 造成 的 影响 进行 了 一 
些 性 能 测试 ， 这 个 备忘录 给 出 了 一 些 测 试 结果 。 


ftp://gatekeeper.dec.com/pub/DEC/WRL/research-reports/'WRL-TR-95.4.pdf 
“The Case for Persistent-Connection HTTP.”(“ 持 久 连 接 HTTP 的 实例 。”) 


http://www.isi.edu/lsam/publications/phttp_tcp_interactions/paper.html 
"Performance Interactions Between P-HTTP and TCP” Implementations (^P-HTTP 
和 TCP 实现 之 间 的 性 能 交互 ”)。 


http://www.sun.com/sun-on-net/performance/tcp.slowstart.html 

“TCP Slow Start Tuning for Solaris" (“Solaris 的 TCP 慢 启 动 调试 ") 是 Sun MA 
统 公司 的 一 个 Web WH, SAT TCP 慢 启 动 带 来 的 一 些 实际 的 影响 。 即 使 工作 
在 不 同 的 操作 系统 上 ， 读 一 读 这 份 资料 也 是 有 所 帮助 的 。 


4.8.8 TCP/IP 


下 面 三 本 W. Richard Stevens 的 书 都 非常 棒 ， 详 细 介 绍 了 TCP/IP 的 工程 问题 。 对 使 
用 TCP 的 人 来 说 尤其 有 用 ; 


TCP Illustrated, Volume 1: The Protocols? (KTCP 详解 ， 卷 1: 协议 》) 
W. Richard Stevens, Addison Wesley 公司 出 版 。 


UNIX Network Programming, Volume 1: Networking APIs" (CUNIX 网 络 编 程 ， 
卷 1， 套 接 字 联网 APL (第 3 版 )》) 

W. Richard Stevens, Prentice-Hall 公司 出 版 。 

UNIX Network Programming, Volume 2: The Implementation? (《UNIX 网 络 编程 ， 
72: 进程 间 通 信 (第 2 版 )》) 

W. Richard Stevens, Prentice-Hall 公司 出 版 。 





ü 














E20: 本 书 影印 版 已 由 人 民 邮 电 出 版 社 出 版 。( 编 者 注 ) 











E21-22; 两 本 书 中 文 版 已 由 人 民 邮 电 出 版 社 出 版 。( 编 者 注 
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下 面 的 文章 和 规范 介绍 了 TCP/IP 及 影响 其 性 能 的 特性 。 其 中 有 些 规 范 已 经 有 20 多 年 
的 历史 了 ， 鉴 于 TCP/IP ERIRE BARD, IRA RECA TARRA LE T o 





http://www.acm.org/sigcomm/ccr/archive/2001/jan01/ccr-200101-mogul.pdf 

在 “Rethinking the TCP Nagle Algorithm" (“Xf TCP Nagle 算法 的 反思 ”) — Xx 
rB, Jeff Mogul 和 Greg Minshall 提出 了 Nagle 算法 的 一 种 现代 视角 ， 概 括 了 哪 
些 应 用 程序 应 该 ， 哪 些 不 应 该 使 用 这 个 算法 ， 并 提出 了 几 条 改进 意见 。 


http://www.ietf.org/rfc/rfc2001.txt 

RFC 2001, “TCP Slow Start, Congestion Avoidance, Fast Retransmit, and Fast 
Recovery Algorithms” (“TCP 慢 启 动 、 避 免 拥 塞 、 快 速 重 传 以 及 快速 恢复 算法 ”) 
定义 了 TCP 慢 启 动 算法 。 

http://www.ietf.org/rfc/rfc1122.txt 


RFC 1122, “Requirements for Internet Hosts 一 Communication Layers”(“ 对 因 特 
网 主机 的 要 求 一 一 通信 层 ”) 讨论 了 TCP 确认 和 延迟 确认 。 





http://www ietf.org/rfc/rfc896.txt 

RFC 896, "Congestion Control in IP/TCP Internetworks” (^IP/TCP 网 络 间 da 
控制 ") 是 John Nagle 于 1984 年 发 布 的 。 描 述 了 TCP 拥塞 控制 的 必要 性 。 介 

了 现在 称 为 “Nagle 算法 ”的 算法 。 


http://www.ietf.org/rfc/rfc0813.txt 

RFC 813, “Window and Acknowledgement Strategy in TCP” (“TCP 中 的 窗口 和 
确认 机 制 ") 是 一 个 早 些 年 (1982 E) 制定 的 规范 ， 它 描述 了 TCP 窗口 和 确认 的 
实现 机 制 ， 解 释 了 延迟 确认 技术 的 早期 技术 。 





http://www ietf.org/rfc/rfc0793.txt 
RFC 793, "Transmission Control Protocol”(“ 传 输 控 制 协 议 ”)， 是 Jon Postel 于 
1981 年 给 出 的 TCP 协议 经 典 定义 。 








第 二 部 分 
HTTP 结 攀 





第 二 部 分 的 6 章 主要 介绍 了 HTTP 服务器、 代理、 缓存、 网关 和 机 器 人 应 用 程序 ， 
这 些 都 是 Web 系统 架构 的 构造 模块 。 


。 第 5 章 概述 了 Web 服务 器 结构 。 

。 第 6 章 详细 介绍 了 HTTP 代理 服务 器 ， 它 们 是 连接 HTTP 客户 端的 中 间 服 务 器 ， 
是 HTTP 服务 和 控制 的 平台 。 

。 第 7 章 深入 研究 了 Web 的 缓存 机 制 。 缓 存 是 通过 对 常用 文档 进行 本 地 复制 来 提 
高 性 能 、 减 少 流量 的 设备 。 

。 第 8 章 介绍 了 一 些 应 用 程序 ， 通 过 这 些 程序 ，HTTP 就 可 以 与 使 用 不 同 协议 (Eb 
如 SSL 加 密 协 议 ) 的 软件 进行 互 操作 了 。 

° 第 9 章 介 绍 了 Web 客户 端 ， 结 束 了 HTTP 架构 之 旅 。 

° 第 10 章 涵盖 了 HTTP 未 来 发 展 的 一 些 主题 ， 特 别 介绍 了 HTTP-NG 技术 。 
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Web 服务 器 每 天 会 分 发 出 数 十 亿 的 Web 页 面 。 这 些 页 面 可 以 告诉 你 天 气 情况 ， 装 
载 在 线 商 店 的 购物 车 ， 还 能 帮 你 找到 许久 未 联系 的 高 中 同学 。Web 服务 器 是 万 维 网 
的 骨干 。 本 章 将 介绍 以 下 话题 。 

。 对 多 种 使 用 不 同类 型 软 硬 件 的 Web 服务 器 进行 调查 。 

。 介绍 如 何 用 Perl 编写 简单 的 诊断 性 Web 服务 器 。 

。 一 步 一 步 地 解释 Web 服务 器 是 如 何 处 理 HTTP 事务 的 。 


为 了 对 问题 进行 具体 的 说 明 ， 例 子 中 使 用 了 Apache Web 服务 器 及 其 配置 选项 。 


5.1 各 种 形状 和 尺寸 的 Web 服 务 器 


Web 服务 器 会 对 HTTP 请 求 进行 处 理 并 提供 响应 。 术 语 “Web 服务 器 ”可 以 用 来 表 
示 Web 服务 器 的 软件 ， 也 可 以 用 来 表示 提供 Web 页 面 的 特定 设备 或 计算 机 。 


Web 服务 器 有 着 不 同 的 风格 、 形 状 和 尺寸 。 有 普通 的 10 行 Perl 脚本 的 Web 服务 
器 、50MB 的 安全 商用 引擎 以 及 极 小 的 卡 上 服务 器 。 但 不 管 功能 有 何 差异 ， 所 有 
的 Web 服务 器 都 能 够 接收 请 求 资 源 的 HTTP 请 求 ， 将 内 容 回 送 给 客户 端 (参见 
图 1-5), 








5.1.1 _ Web 服务器 的 实现 
Web 服务 器 实现 了 HTTP 和 相关 的 TCP 连接 处 理 。 负 责 管理 Web 服务 器 提供 的 资 
源 ， 以 及 对 Web 服务 器 的 配置 、 控 制 及 扩展 方面 的 管理 。 














Web 服务 器 逻辑 实现 了 HTTP 协议 、 管 理 着 Web 资源 ， 并 负责 提供 Web 服务 器 的 
管理 功能 。Web 服务 器 逻辑 和 操作 系统 共同 负责 管理 TCP 连接 。 底 层 操作 系统 负责 
管理 底层 计算 机 系统 的 硬件 细 市 ， 并 提供 了 TCP/IP 网 络 支 持 、 负 责 装载 Web 资源 
的 文件 系统 以 及 控制 当前 计算 活动 的 进程 管理 功能 。 


Web 服务 器 有 各 种 不 同 的 形式 。 


° 可 以 在 标准 的 计算 机 系统 上 安装 并 运行 通用 的 软件 Web 服务 器 。 

° 如 果 不 想 那么 麻烦 地 去 安装 软件 ， 可 以 买 一 台 Web 服务 器 设备 ， 通 常会 是 一 台 
安装 在 时 蕊 机 架 上 的 计算 机 ， 里 面 的 软件 会 预 效 并 配置 好 。 

° 随 着 微 处 理 器 奇迹 般 地 出 现 ， 有 些 公司 其 至 可 以 在 少量 计算 机 芯片 上 实现 父 入 式 
Web 服务 器 ， 使 其 成 为 完美 的 (便携式) 消费 类 设备 管理 控制 台 。 


我 们 分 别 来 看 看 这 些 实现 方式 。 
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5.1.2 通用 软件 Web 服 务 器 

通用 软件 Web 服务 器 都 运行 在 标准 的 、 有 网 络 功 能 的 计算 机 系统 上 。 可 以 选择 开源 
软件 (比如 Apache 或 W3C 的 Jigsaw) 或 者 商业 软件 (比如 微软 和 iPlanet 的 Web 
服务 器 ) 。 基 本 上 所 有 的 计算 机 和 操作 系统 中 都 有 可 用 的 Web 服务 器 软件 。 


尽管 不 同类 型 的 Web 服务 器 程序 有 数 万 个 〈 包 括 定制 的 和 特殊 用 途 的 Web 服务 
器 ) ， 但 大 多 数 Web 服务 器 软件 都 来 自 少数 几 个 组 织 。 








2002 年 2 H, Netcraft 调查 (http://www.netcraft.com/survey/) 显示 有 三 家 厂商 主宰 
了 公共 因特网 Web 服务 器 市 场 (参见 图 5-1). 


。 免费 的 Apache 软件 占据 了 所 有 因特网 Web 服务 器 中 大 约 60% 的 市 场 。 
。 微软 的 Web 服务 器 占据 了 另外 30%。 
。 Sun 的 iPlanet 占据 了 另外 3%。 








rog — pache 


iPlanet 


F- Her 


oz 


0ct1995 Feb1997 Jun1998 0ct1999 











Netcraft 的 自动 化 调查 估计 的 Web 服务 器 市 场 份额 


但 这 些 数 据 也 不 能 尽 信 ， 通 常 大 家 都 认为 Netcratft 调查 会 夸大 Apache 软件 的 优势 。 
首先 ， 在 调查 计算 服务 器 的 时 候 没 有 考虑 其 流行 程度 。 各 大 ISP 的 代理 服务 器 访问 
研究 表明 ，Apache 服务 器 提供 的 页 面 数量 远 小 于 60%， 但 仍然 超过 了 微软 和 Sun 
HJ iPlanet。 然 而 ， 据 说 微软 和 iPlanet 服务 器 在 公司 企业 中 要 比 Apache 更 受 欢迎 。 


5.1.3 ”Web 服务 器 设备 

Web 服务 器 设备 (Web server appliance) 是 预先 打包 好 的 软 硬 件 解决 方案 。 厂 商会 
在 他 们 选择 的 计算 机 平台 上 预先 安装 好 软件 服务 器 ， 并 将 软件 配置 好 。 下 面 是 一 些 
Web 服务 器 设备 的 例子 : 


5-1 











° Sun/Cobalt RaQ Web 设备 (http://www.cobalt.com) ; 
° 东芝 的 Magnia SG10 (http://www.toshiba.com); 
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° IBM 的 Whistle Web 服务 器 设备 (http:Wwww.whistle.com ) 。 


应 用 解决 方案 不 再 需要 安装 及 配置 软件 ， 通 常 可 以 极 大 地 简化 管理 工作 。 但 是 ， 
Web 服务 器 通常 不 太 灵 活 ， 特 性 不 太 丰 富 ， 而 且 服 务 器 硬件 也 不 太 容易 重用 或 
升级 。 


5.1.4. HRNXWebBR Z iS 

SCA AUI £ Z (embeded server) ÆRA SU RA m (EE AT ELS ac Hz és) 
中 去 的 小 型 Web Hr 2$. HX À Ñ Web 服务 器 允许 用 户 通 过 便捷 的 Web 浏览 器 接口 
来 管理 其 消费 者 设备 。 


AERAR Web 服务 器 甚至 可 以 在 小 于 一 平方 英寸 的 空间 内 实现 ， 但 通常 只 能 提供 
最 小 特性 功能 集 。 下 面 是 两 种 非常 小 的 钦 入 式 Web 服务 器 实例 : 








° IPic 火柴 头 大 小 的 Web 服务 器 (http://www-ccs.cs.umass.edu/~shri/iPic.html) ; 
° NetMedia SitePlayer SP1 以 太 网 Web 服务 器 (http://www.siteplayer.com) , 


5.2 最 小 的 Perl Web 服 务 器 


要 构建 一 个 特性 完备 的 HTTP 服务 器 ， 是 需要 做 一 些 工 作 的 。Apache Web 服务 
器 的 内 核 有 超过 50 000 行 的 代码 ， 那 些 可 选 处 理 模块 的 代码 量 更 是 远 远 超过 这 个 
数字 。 

这 个 软件 所 要 做 的 就 是 支持 HTTP/1.1 的 各 种 特性 : 丰富 的 资源 支持 、 虚 拟 主机 、 
访问 控制 、 日 志 记 录 、 配 置 、 监 视 和 性 能 特性 。 在 这 里 ， 可 以 用 少 于 30 行 的 Perl 
代码 来 创建 一 个 最 小 的 可 用 HTTP 服务 器 。 我 们 来 看 看 这 是 怎么 实现 的 。 


例 5-1 显示 了 一 个 名 为 type-o-serve 的 小 型 Perl 程序 。 这 个 程序 是 个 很 有 用 的 诊断 
工具 ， 可 以 用 来 测试 与 客户 端 和 代理 的 交互 情况 。 与 所 有 Web 服务 器 一 样 ，type-o- 
serve 会 等 待 HTTP 连接 。 只 要 type-o-serve 收 到 了 请 求 报 文 ， 就 会 将 报 文 打印 在 屏 
幕 上 ， 然 后 等 待 用 户 输入 (或 粘贴 ) 一 条 响应 报 文 ， 并 将 其 回 送 给 客户 端 。 通 过 这 
种 方式 ，type-o-serve 假扮 成 一 台 Web 服务 器 ， 记 录 下 确切 的 HTTP 请求 报 文 ， 并 
允许 用 户 回 送 任意 的 HTTP 响应 报 文 。 





这 个 简单 的 type-o-serve 实用 程序 并 没有 实现 大 部 分 的 HTTP 功能 ， 但 它 是 一 种 很 
有 用 的 工具 ， 产 生 服 务 器 响应 报 文 的 方式 与 Telnet 产生 客户 端 请 求 报 文 的 方式 相同 
(参见 例 5-1)。 可 以 从 http://www.http-guide.com/tools/type-o-serve.pl 上 下 载 type-o- 
serve 程序 。 
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例 5-1 type-o-serve 一 一 用 于 HTTP 调试 的 最 小 型 Perl Web 服务 器 
#!/usr/bin/perl 
use Socket; 


use Carp; 
use FileHandle; 


# (1) use port 8080 by default, unless overridden on command line 
$port = (GARGV ? $ARGV[0] : 8080); 


4 (2) create local TCP socket and set it to listen for connections 
$proto = getprotobyname('tcp'); 


Socket(S, PF INET, SOCK STREAM, $proto) || die; 

setsockopt(S, SOL SOCKET, SO REUSEADDR, pack("l", 1)) IN die; 
bind(S, sockaddr in($port, INADDR ANY)) || die; 

listen(S, SOMAXCONN) || die; 


# (3) print a startup message 
printf(" «««Type-O-Serve Accepting on Port %d>>>\n\n", $port); 


while (1) 
{ 
# (4) wait for a connection C 
$cport caddr = accept(C, S); 
($cport,$caddr) = sockaddr in($cport caddr); 
C-»autoflush(1); 


4 (5) print who the connection is from 
$cname = gethostbyaddr($caddr,AF INET); 
printf(" «««Request From '%s'>>>\n",$cname); 


# (6) read request msg until blank line, and print on screen 
while ($1ine = «C») 


{ 


print $line; 














if ($line =~ /^Nr/) ( last; } 
) 112 
# (7) prompt for response message, and input response lines, 
# sending response lines to client, until solitary "." 
printtf(^" «««Type Response Followed by '.'»»»Mn"); 


while ($1ine = «STDIN») 
{ 
$line =~ s/Nr//; 
$line =~ s/Nn//; 


if ($line =~ /^\./) { last; } 
print C $line . MeN 

} 

close (C) ; 
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图 5-2 显示 了 Joe 的 五 金 商店 的 管理 员 是 如 何 用 type-o-serve 来 测试 HTTP 通信 的 。 


° 首先 ， 管 理 员 启动 了 type-o-serve 诊断 服务 器 ， 在 一 个 特定 的 端口 上 监听 。 由 于 
Joe 的 五 金 商店 已 经 有 一 个 产品 化 的 Web 服务 器 在 监听 80 端口 了 ， 所 以 管理 员 





用 下 面 这 条 命令 在 端口 8080( 可 以 选择 任意 未 用 端口 ) 上 启动 了 type-o-serve 服 务 : 
% type-o-serve.pl 8080 


s 只 要 type-o-serve 开始 运行 了 ,就 可 以 将 浏览 器 指向 这 个 Web 服务器。 在 图 5-2 rp, 


EN HE 


浏览 器 指向 了 http://www.joes-hardware.com:8080/foo/bar/blah.txt, 


° type-o-serve 程序 收 到 来 自 浏 览 器 的 HTTP 请 求 报 文 ， 并 将 HTTP 请 求 报 文 的 内 
容 打 印 在 屏幕 上 。 然 后 type-o-serve 诊断 工具 会 等 待 用 户 输入 一 条 简单 的 响应 报 


文 ， 后 面 跟 着 只 有 一 个 句号 的 空 行 
° type-o-serve 将 HTTP 响应 报 文 回 送 给 浏览 器 ， 浏 览 器 会 显示 响应 报 文 的 主体 。 





HTTP 请 求 报 文 


GET /foo/bar/blah. txt HTTP/1.1 
Accept: */* 

Accept-language: en-us 
Accept-encoding: Yin deflate | |--------------------.-..-.---.4 
User-agent: Mozil 

Host: www.joes.hardware.com:8080 1 


Connection: Keep-alive š j 
P. type-o-serve 对 话 Y 


' % ./type-o-serve.pl 8080 
<<<Type-0-Serve Accepting on Port 8080>>> 

















<<<Request From 'home-44- S extranet.inktomi.com'»»» 
GET /foo/bar/blah.txt HTTP/1.1 
»g* 




















-—ziBixl| | Accept: 
| Æ | | Accept-language: en-us 
. ( 5 ^re Accept-encoding: gib deflate 
Bak Foverd Stop Refresh Home | Search User-agent: Mozil 
Address [Æ] http://www. joes-hardware.com:8080/foo/bar/blah.t v] EJ co Host: www.joes-hardware.com:8080 








Connection: Keep-alive 


ai d «««Type response followed by '.'>>> 
HTTP/1.0 200 OK 
À Connection: close 


' HTTP 响 应 报 文 Content-type: text-plain 
í | HTTP/1.0 200 OK Hi there! 


Connection: close T 
Content-type: text/plain i 














Hi there! 














图 5-2 type-o-serve 实用 程序 让 用 户 输入 服务 器 响应 ， 将 其 回 送 给 客户 端 


5.3 实际 的 Web 服 务 器 会 做 些 什 么 


例 5-1 显示 的 Perl 服务 器 是 一 个 Web 服务 器 的 小 例子 。 最 先进 的 商用 Web 服务 器 
要 比 它 复杂 得 多 ， 但 它们 确实 执行 了 几 项 同样 的 任务 Anl 5-3 所 示 。 














(1) 建立 连接 一 一 接受 一 个 客户 端 连 接 ， 或 者 如 果 不 希 望 与 这 个 客户 端 建立 连接 ， 就 
将 其 关闭 。 





(2) 接收 请 求 一 一 从 网 络 中 读 取 一 条 HTTP 请 求 报 文 。 

(3) 处 理 请 求 一 一 对 请 求 报 文 进行 解释 ， 并 采取 行动 。 

(4) 访问 资源 一 一 访问 报 文中 指定 的 资源 。 

(5) 构建 响应 一 一 创建 带 有 正确 首部 的 HTTP 响应 报 文 。 

(6) 发 送 响 应 一 一 将 响应 回 送 给 客户 端 。 

(7) 记录 事务 处 理 过 程 一 一 将 与 已 完成 事务 有 关 的 内 容 记录 在 一 个 日 志文 件 中 。 








用 户 空间 
HTTP 服 务 器 软件 进程 
(3) 处 理 请 求 




















pk | 
e 网 络 接口 对 象 存储 
(6) 发 送 响应 





run 











5-3 ”基本 Web 服务 器 请 求 的 步骤 
接 下 来 的 7 个 小 节 重 点 说 明了 Web 服务 器 是 怎样 实现 这 些 基本 任务 的 。 


5.4 第 一 步 一 一 接受 客户 端 连接 

如 果 客 户 端 已 经 打开 了 一 条 到 服务 器 的 持久 连接 ， 可 以 使 用 那 条 连接 来 发 送 它 的 
请 求 。 否 则 ， 客 户 端 需要 打开 一 条 新 的 到 服务 器 的 连接 (回顾 第 4 章 ， 复 习 一 下 
HTTP 的 连接 管理 技术 )。 








5.4.1 ”处理 新 连接 
客户 端 请 求 一 条 到 Web 服务 器 的 TCP 连接 时 ，Web 服务 器 会 建立 连接 ， 判 断 连 接 
的 另 一 端 是 哪个 客户 端 ， 从 TCP 连接 中 将 IP 地 址 解析 出 来 。: 一 旦 新 连接 建立 起 来 
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并 被 接受 ， 服 务 器 就 会 将 新 连接 添加 到 其 现存 Web 服务 器 连接 列表 中 ， 做 好 监视 连 
接 上 数据 传输 的 准备 。 

Web 服务 器 可 以 随意 拒绝 或 立即 关闭 任意 一 条 连接 。 有 些 Web 服务 器 会 因为 客户 
端 IP 地 址 或 主机 名 是 未 认证 的 ， 或 者 因为 它 是 已 知 的 恶意 客户 端 而 关闭 连接 。Web 
服务 器 也 可 以 使 用 其 他 识别 技术 。 








5.4.2 ”客户 端 主机 名 识别 

可 以 用 “ 反 向 DNS” 对 大 部 分 Web 服务 器 进行 配置 ， 以 便 将 客户 端正 地址 转换 成 
客户 端 主机 名 。Web 服务 器 可 以 将 客户 端 主机 名 用 于 详细 的 访问 控制 和 日 志 记 录 。 
但 要 注意 的 是 ， 主 机 名 查找 可 能 会 花费 很 长 时 间 ， 这 样 会 降低 Web 事务 处 理 的 速 
度 。 很 多 大 容量 Web 服务 器 要 么 会 禁止 主机 名 解析 ， 要 么 只 人 允许 对 特定 内 容 进 行 
解析 。 


可 以 用 配置 指令 HostnameLookups 启用 Apache 的 主机 查找 功能 。 比 如 ， 例 5-2 中 
的 Apache 配置 指令 就 只 打开 了 HTML 和 CGI 资源 的 主机 名 解析 功能 。 





例 5-2 配置 Apache， 为 HTML 和 CGI 资源 查找 主机 名 


HostnameLookups off 

«Files ~ "N. (html|htm|cgi)$"- 
HostnameLookups on 

«/Files» 


5.4.3 通过 ident 确 定 客 户 端 用 户 

有 些 Web 服务 器 还 支持 IETF 的 ident 协议 。 服 务 器 可 以 通过 ident 协议 找到 发 起 
HTTP 连接 的 用 户 名 。 这 些 信息 对 Web 服务 器 的 日 志 记 录 特 别 有 用 一 一 流行 的 通用 
日 志 格 式 (Common Log Format) 的 第 二 个 字段 中 就 包含 了 每 条 HTTP 请 求 的 ident 
用 户 名 。? 























如 果 客 户 端 支持 ident 协议 ， 就 在 TCP 端口 113 上 监听 ident 请 求 。 图 5-4 说 明了 
ident 协议 是 如 何 工 作 的 。 在 图 5-4a 中 ， 客 户 端 打开 了 一 条 HTTP 连接 。 然 后， 服 
务 器 打开 自己 到 客户 端 ident 服务 器 端口 (113) 的 连接 ， 发 送 一 条 简单 的 请 求 ， 询 
问 与 (由 客户 端 和 服务 器 端口 号 指定 的 ) 新 连接 相对 应 的 用 户 名 ， 并 从 客户 端 解析 
出 包含 用 户 名 的 响应 。 





注 1: 不 同 的 操作 系统 在 对 TCP 连接 进行 操作 时 会 使 用 不 同 的 接口 和 数据 结构 。 在 Unix 环境 下 ，TCP 连接 
是 由 一 个 套 接 字 表 示 的 ， 可 以 用 getpeername 调用 从 套 接 字 中 获取 客户 端的 IP 地址 。 

注 2: 这 个 通用 日 志 格 式 的 ident 字段 被 称 为 “rfc931”， 这 是 根据 定义 ident 协议 的 过 时 RFC 版 本 (更 新 过 
的 ident 规范 记录 在 RFC1413 中 ) 命名 的 。 
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(a) Mary 建 立 了 一 条 新 的 HTTP 连 接 
〇 端口 4236 - HTTP connection mm m 180 O 


u [5680|- S) 服务 器 发 送 请 求 annon 
' (b) 服务 器 建立 ident 连 接 


Mary Y > 端 白 80 Web 服 务 器 
mm ident connection sm: 





















































Ee | 4236,80:USERID:UNIX:mary |.. 


(d) 客户 端 返 回 ident 响 应 
































5-4 使 用 ident 协议 来 确定 HTTP 的 客户 端 用 户 名 


ident 在 组 织 内 部 可 以 很 好 地 工作 ， 但 出 于 多 种 原因 ， 在 公共 因特网 上 并 不 能 很 好 地 
工作 ， 原 因 包 括 : 

。 很 多 客户 端 PC 没有 运行 ident 识别 协议 守护 进程 软件 ; 

° ident 协议 会 使 HTTP 事务 处 理 产生 严重 的 时 延 ; 

。 很 多 防火 墙 不 允许 ident 流量 进入 ; 

° ident 协议 不 安全 ， 容 易 被 伪造 ，; 

° ident 协议 也 不 支持 虚拟 IP 地 址 ; 

° 暴露 客户 端的 用 户 名 还 涉及 隐私 问题 。 

可 以 通过 Apache 的 IdentityCheck on 指令 告知 Apache Web 服务 器 使 用 ident 查找 
功能 。 如 果 没 有 ident 信息 可 用 ，Apache 会 用 连 字符 (C) 来 填充 ident 日 志 字 段 。 
由 于 没有 ident 信息 可 用 ， 在 使 用 通用 日 志 格 式 的 日 志文 件 中 ， 第 二 个 字段 通常 都 
是 连 字符 。 


5.5 第 二 步 一 一 接收 请 求 报 文 


连接 上 有 数据 到 达 时 ，Web 服务 器 会 从 网 络 连接 中 读 取 数据 ， 并 将 请 求 报 文 中 的 内 

容 解析 出 来 (参见 图 5-5). 

解析 请 求 报 文 时 ，Web 服务 器 会 : 

° 解析 请 求 行 ， 查 找 请 求 方法 、 指 定 的 资源 标识 符 (URD 以 及 版 本 号 ，) 各 项 之 
间 由 一 个 空格 分 隔 ， 并 以 一 个 回 车 换行 (CRLF) 序列 作为 行 的 结束 ;“ 














HE 3: HTTP 的 初始 版 本 HTTP/0.9 并 不 支持 版 本 号 。 有 些 Web 服务 器 也 支持 没有 版 本 号 的 情况 ， 会 将 报 文 
作为 HTTP/0.9 请 求 进行 解析 。 
注 4: 很 多 客户 端 会 错误 地 将 LF 作为 行 结束 的 终止 符 发 送 ， 所 以 很 多 Web 服务 器 都 支持 将 LF 或 CRLF 作 
为 行 结束 序列 使 用 。 
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° 读 取 以 CRLF 结尾 的 报 文 首部 ; 
。 检测 到 以 CRLF 结尾 的 、 标 识 首 部 结束 的 空 行 (如 果 有 的 话 ) ; 
° 如 果 有 的 话 (KEH Content-Length 首部 指定 ) ， 读 取 请 求 主体 。 





从 网 络 中 读 取 的 请 求 报 文 
GET /specials/saw-blade.gif HTTP/1.0CRLF 
Accept: image/gifCRLF 
Host: www.j < 

















er 


Ll i LF CR LF CR moc.erawdrah-se p B 


客户 端 服务 器 




















图 5-5 ”从 连接 中 读 取 请 求 报 文 

解析 请 求 报 文 时 ，Web 服务 器 会 不 定期 地 从 网 络 上 接收 输入 数据 。 网 络 连接 可 能 
时 都 会 出 现 延迟 。Web 服务 器 需要 从 网 络 中 读 取 数 据 ， 将 部 分 报 文 数据 临时 存储 在 
内 存 中 ， 直 到 收 到 足以 进行 解析 的 数据 并 理解 其 意义 为 止 。 


5.5.1 报 文 的 内 部 表示 法 

有 些 Web 服务 器 还 会 用 便于 进行 报 文 操作 的 内 部 数据 结构 来 存储 请 求 报 文 。 比 如 ， 
数据 结构 中 可 能 包含 有 指向 请 求 报 文中 各 个 片段 的 指针 及 其 长 度 ， 这 样 就 可 以 将 这 些 
首部 存放 在 一 个 快速 查询 表 中 ， 以 便 快 速 访问 特定 首部 的 具体 值 了 (参见 图 5-6), 

















请 求 报 文 

GET /specials/saw-blade.gif HTTP/1.0CRLF 
Accept: image/gifCRLF 

Host: www.joes-hardware.comCRLF 

CRLF 









































解析 

请 求 报 文 解 析 后 的 编码 
method : al EUNA >| specials/saw-blade.gif 
version: 1.0 ; 
uri: 人 »| www. joes-hardware.com 
header count: 2 : 
headers: 9 — eR vg : - - 
body: Y i p image/gif 

` name:Host |value: @ |: 
































name: Accept value: e... 














图 5-6 将 请 求 报 文 解析 为 便捷 的 内 部 表示 形式 
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5.5.2. 连接 的 输入 /输出 处 理 结 构 

高 性 能 的 Web 服务 器 能 够 同时 支持 数 千 条 连接 。 这 些 连 接 使 得 服务 器 可 以 与 世界 各 
地 的 客户 端 进行 通信 ， 每 个 客户 端 都 向 服务 器 打开 了 一 条 或 多 条 连接 。 某 些 连 接 可 
能 在 快速 地 向 Web 服务 器 发 送 请 求 ， 而 其 他 一 些 连接 则 可 能 在 慢 慢 发 送 ， 或 者 不 经 
常 发 送 请 求 ， 还 有 一 些 可 能 是 空 亲 的 ， 安 静 地 等 待 着 将 来 可 能 出 现 的 动作 。 





因为 请 求 可 能 会 在 任意 时 刻 到 达 ， 所 以 Web 服务 器 会 不 停 地 观察 有 无 新 的 Web 请 
求 。 不 同 的 Web 服务 器 结构 会 以 不 同 的 方式 为 请 求 服务 ， 如 图 5-7 所 示 。 








。 单线 程 Web 服务 器 (参见 图 5-7a) 
单线 程 的 Web 服务 器 一 次 只 处 理 一 个 请 求 ， 直 到 其 完成 为 止 。 一 个 事务 处 理 结 
束 之 后 ， 才 去 处 理 下 一 条 连接 。 这 种 结构 易于 实现 ， 但 在 处 理 过 程 中 ， 所 有 其 他 
连接 都 会 被 忽略 。 这 样 会 造成 严重 的 性 能 问题 ， 只 适用 于 低 负 和 茶 的 服务 器 ， 以 及 
type-o-serve 这 样 的 诊断 工具 。 

















° 多 进程 及 多 线程 Web 服务 器 (参见 图 5-7b) 
多 进程 和 多 线程 Web 服务 器 用 多 个 进程 ,或 更 高 效 的 线程 同时 对 请 求 进行 处 理 。” 
可 以 根据 需要 创建 ,或 者 预先 创建 一 些 线程 /进程 。" 有 些 服务 器 会 为 每 条 连接 
分 配 一 个 线程 /进程 ， 但 当 服 务 器 同时 要 处 理 成 百 、 上 千 ， 甚 至 数 以 万 计 的 连接 
时 ， 需 要 的 进程 或 线程 数量 可 能 会 消耗 大多 的 内 存 或 系统 资源 。 因 此 ， 很 多 多 线 
FE Web 服务 器 都 会 对 线程 / 进程 的 最 大 数量 进行 限制 。 














c—— 


° 复 用 IO 的 服务 器 (参见 图 5-7c) 
为 了 支持 大 量 的 连接 ， 很 多 Web 服务 器 都 采用 了 复 用 结构 。 在 复 用 结构 中 ， 要 
同时 监视 所 有 连接 上 的 活动 。 当 连接 的 状态 发 生变 化 时 〈 比 如 ， 有 数据 可 用 ， 或 
出 现 错误 时 ) ， 就 对 那 条 连接 进行 少量 的 处 理 ， 处 理 结束 之 后 ， 将 连接 返回 到 开 
放 连 接 列表 中 ， 等 待 下 一 次 状态 变化 。 只 有 在 有 事情 可 做 时 才 会 对 连接 进行 处 
FR. 在 空闲 连接 上 等 待 的 时 候 并 不 会 绑 定 线程 和 进程 。 














° 复 用 的 多 线程 Web 服务 器 (参见 图 5-7d) 
有 些 系 统 会 将 多 线程 和 复 用 功能 结合 在 一 起 ， 以 利用 计算 机 平台 上 的 多 个 CPU。 
多 个 线程 (通常 是 一 个 物理 处 理 器 ) 中 的 每 一 个 都 在 观察 打开 的 连接 (或 打开 的 
连接 中 的 一 个 子 集 )， 并 对 每 条 连接 执行 少量 的 任务 。 




















注 5: 进程 是 一 个 独立 的 程序 控制 流 ， 有 自己 的 变量 集 。 线 程 是 一 种 更 快 、 更 高 效 的 进程 版 本 。 单 个 程序 可 
以 通过 线程 和 进程 同时 处 理 多 件 事情 。 为 了 便于 解释 ， 我们 将 线程 和 进程 当 作 是 可 以 互 换 的 概念 。 但 
由 于 性 能 的 不 同 ， 很 多 高 性 能 服务 器 既是 多 进程 的 ， 又 是 多 线程 的 。 

注 6: 会 预先 创建 一 些 线程 的 系统 被 称 为 “工作 池 ” 系 统 ， 因 为 池 中 会 有 一 组 线程 在 等 待 工作 。 
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e 
e 
e | 连接 列表 
o 
e. ** S9. ° ° © 
;线程 /进程 _ 
(a) 单线 程 1O 结 构 (b) 多 线程 TO 结构 
| Y | i i 
连接 
复 用 器 
@、 29. e. 
(c) 复 用 的 VO 结构 (d) 复 用 的 多 线程 TO 结 构 





图 5-7. Web 服务 器 输入 /输出 结构 


5.6 第 三 步 一 一 处 理 请 求 

一 且 Web 服务 器 收 到 了 请 求 ， 就 可 以 根据 方法 、 资 源 、 首 部 和 可 选 的 主体 部 分 来 对 
请 求 进行 处 理 了 。 

有 些 方法 (比如 POST) 要 求 请 求 报 文中 必须 带 有 实体 主体 部 分 的 数据 。 其 他 一 
些 方法 (比如 OPTIONS) 允许 有 请 求 的 主体 部 分 ， 也 允许 没有 。 少 数 方 法 (比如 
GET) 禁止 在 请 求 报 文中 包含 实体 的 主体 数据 。 


这 里 我 们 并 不 对 请 求 的 具体 处 理 方式 进行 讨论 ， 因 为 本 书 其 余 大 多 数 章节 都 在 讨论 
这 个 问题 。 
5.7 第 四 步 一 一 对 资源 的 映射 及 访问 


Web 服务 器 是 资源 服务 器 。 它 们 负责 发 送 预 先 创建 好 的 内 容 ， 比 如 HTML 页 面 或 
JPEG 图 片 ， 以 及 运行 在 服务 器 上 的 资源 生成 程序 所 产生 的 动态 内 容 。 
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在 Web 服务 器 将 内 容 传送 给 客户 端 之 前 ， 要 将 请 求 报 文中 的 URI 映 射 为 Web 服务 
器 上 适当 的 内 容 或 内 容 生成 器 ， 以 识别 出 内 容 的 源头 。 


5.7.1 docroot 
Web 服务 器 支持 各 种 不 同类 型 的 资源 映射 ， 但 最 简单 的 资源 映射 形式 就 是 用 请 求 
URI 作为 名 字 来 访问 Web 服务 器 文件 系统 中 的 文件 。 通 常 ，Web 服务 器 的 文件 系 
统 中 会 有 一 个 特殊 的 文件 夹 专 门 用 于 存放 Web 内 容 。 这 个 文件 夹 被 称 为 文档 的 根 目 
录 (document root， 或 docroot)。Web 服务 器 从 请 求 报 文中 获取 URI， 并 将 其 附加 
在 文档 根 目 录 的 后 面 。 








在 图 5-8 中 ， 有 一 条 对 /specials/saw-blade.gif 的 请 求 到 达 。 这 个 例子 中 Web 服务 器 
的 文档 根 目 录 为 /usr/local/httpd/files。Web 服务 器 会 返回 文件 /usr/local/httpd/files/ 


specials/saw-blade.gif。 



































/usr/local/httpd/files 
请 求 报 文 特 网 | /NN | 
,| GET /specials/saw-blade.gif HTTP/1.0 | : 
Host: www.joes-hardware.com : i 
对象 存储 器 
客户 中 Web 服 务 器 
请 求 URI: /specials/saw-blade.gif 服务 器 资源 : /usr/local/httpd/files/specials/saw-blade.gif 











5-8 将 请 求 URI 映射 为 本 地 Web 服务 器 上 的 资源 


在 配置 文件 httpd.conf 中 添加 一 个 DocumentRoot 行 就 可 以 为 Apache Web 服务 器 
设置 文档 的 根 目录 了 : 





DocumentRoot /usr/local/httpd/files 


服务 器 要 注意 ， 不 能 让 相对 URL 退 到 docroot 之 外 ， 将 文件 系统 的 其 余部 分 暴露 出 
来 。 比 如 ， 大 多 数 成 熟 的 Web 服务 器 都 不 允许 这 样 的 URI 看 到 Joe 的 五 金 商 店 文档 
根 目 录 上 一 级 的 文件 : 


http://www.joes-hardware.com/../ 


1. 虚拟 托管 的 docroot 
虚拟 托管 的 Web 服务 器 会 在 同一 台 Web 服务 器 上 提供 多 个 Web 站 点 ， 每 个 站 点 在 
服务 器 上 都 有 自己 独 有 的 文档 根 目 录 。 虚 拟 托管 Web 服务 器 会 根据 URI 或 Host Ë 
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部 的 IP 地 址 或 主机 名 来 识别 要 使 用 的 正确 文档 根 目录 。 通 过 这 种 方式 ， 即 使 请 求 
URI 完全 相同 ， 托 管 在 同一 Web 服务 器 上 的 两 个 Web 站 点 也 可 以 拥有 完全 不 同 的 
内 容 了 。 

















图 5-9 中 的 服务 器 托管 了 两 个 站 点 : www.joes-hardware.com 和 www.marys-antiques. 


com。 服 务 器 可 以 通过 HTTP 的 Host 首部 ， 或 根据 不 同 的 也 地 址 来 区 分 不 同 的 
Web 站 点 。 


° 当 请求 A 到 达 时 ， 服 务 器 会 获取 文件 /docs/joe/index.html。 
。 当 请 求 B 到 达 时 ， 服 务 器 会 获取 文件 /docs/mary/index.html。 





请 求 报 文 A 


, GET /index.htm] HTTP/1.0 | | 22 
Host: www.joes-hardware.com SSS SLO 














因特网 : /docs/joe /docs/mary I 
客户 端 GET /index.html HTTP/1.0 www.joes-hardware.com 
| Host: www.marys-antiques.com www.marys-antiques.com 








请 求 报 文 B 











图 5-9 虚拟 托管 的 请 求 会 使 用 不 同 的 文档 根 目录 


对 大 多 数 Web 服务 器 来 说 ， 配 置 虚拟 托管 的 文档 根 目 录 是 很 简单 的 。 对 常见 的 
Apache Web 服务 器 来 说 ， 需 要 为 每 个 虚拟 Web 站 点 配置 一 个 VirtualHost 块 ， 而 且 
每 个 虚拟 服务 器 都 要 包含 DocumentRoot ( 例 5-3). 


例 5-3 Apache Web 服务 器 虚拟 主机 的 docroot 配置 


<VirtualHost www.joes-hardware.com> 
ServerName www.joes-hardware.com 
DocumentRoot /docs/joe 
TransferLog /logs/joe.access_log 
ErrorLog /logs/joe.error_log 
</VirtualHost> 


<VirtualHost www.marys-antiques.com> 
ServerName www.marys-antiques.com 
DocumentRoot /docs/mary 
TransferLog /logs/mary.access_log 
ErrorLog /logs/mary.error_log 
</VirtualHost> 


更 多 与 虚拟 托管 有 关 的 信息 可 以 参考 18.2 市 。 
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2. 用 户 的 主 目录 docroot 

Docroot 的 另 一 种 常见 应 用 是 在 Web 服务 器 上 为 人 们 提供 私有 的 Web 站 点 。 通 常会 
把 那些 以 斜 枉 和 波浪 号 (/-) 开始 ， 后 面 跟着 用 户 名 的 URI 映射 为 此 用 户 的 私有 文 
档 根 目录 。 私 有 docroot 通常 都 是 用 户主 目录 下 那个 名 为 public_html 的 目录 ， 但 也 
可 将 其 配置 为 其 他 值 (参见 图 5-10)。 











请 求 报 文 A 
^| GET /“bob/index.html HTTP/1.0 a 














因特网 Í mome/bobipublic 1 html i 





i/homefbetty/public. | html | 





-hardwar e. 
| GET /*betty/index.html HTTP/1.0 Kul joes tardyarecom 





客户 端 

















请 求 报 文 B 





5-10 不 同 用 户 有 不 同 的 docroot 


5.7.2 目录 列表 


Web 服务 器 可 以 接收 对 目录 URL 的 请 求 ， 其 路 径 可 以 解析 为 一 个 目录 ， 而 不 是 文 
件 。 我 们 可 以 对 大 多 数 Web 服务 器 进行 配置 ， 使 其 在 客户 端 请 求 目 录 URL 时 采取 
不 同 的 动作 。 


。 返回 一 














。 不 返回 eat 回 一 个 特殊 的 默认 “索引 文件 ”。 
° 扫描 目录 ， P. 目录 内 容 的 HTML 页 面 。 


大 多 数 Web 服务 器 都 会 去 查找 目录 中 一 个 名 为 index.html 或 index.htm 的 文件 来 代 
表 此 目录 。 如 果 用 户 请 求 的 是 一 个 目录 的 URL， 而 且 这 个 目录 中 有 一 个 名 为 index. 
html (或 index.htm) 的 文件 ， 服 务 器 就 会 返回 那个 文件 的 内 容 。 


在 Apache Web 服务 器 上 ， 可 以 用 配置 指令 DirectoryIndex 来 配置 要 作为 默认 目 
录 文 件 使 用 的 文件 名 集合 。 指 令 DirectoryIndex 会 按照 优先 顺序 列 出 所 有 可 以 
作为 目录 索引 文件 使 用 的 文件 名 。 下 列 配置 行 会 使 Apache 在 收 到 一 个 目录 URL 请 
求 时 ， 在 目录 中 搜索 命令 中 列 出 来 的 任意 一 个 文件 : 


DirectoryIndex index.html index.htm home.html home.htm index.cgi 


如 果 用 户 请 求 目 录 URI 时, 没有 提供 默认 的 索引 文件 ， 而 且 没 有 禁止 使 用 目录 索 
引 ， 很 多 Web 服务 器 都 会 自动 返回 一 个 HTML 文件 ， 此 文件 中 会 列 出 那个 目录 里 
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的 文件 名 ， 以 及 每 个 文件 的 大 小 和 修改 日 期 ， 还 包括 到 每 个 文件 的 URI 链接 。 使 用 
这 个 文件 列表 可 能 会 很 方便 ， 但 有 些 好 事 者 也 可 以 通过 它 在 Web 服务 器 上 找到 一 些 
通常 找 不 到 的 东西 。 


可 以 通过 以 下 Apache 指令 禁止 自动 生成 目录 索引 文件 : 














Options -Indexes 


5.7.3 ”动态 内 容 资源 的 映射 

Web 服务 器 还 可 以 将 URI 映射 为 动态 资源 一 一 也 就 是 说 ， 映 射 到 按 需 动态 生成 内 容 
的 程序 上 去 (参见 图 5-11)。 实 际 上 ， 有 一 大 类 名 为 应 用 程序 服务 器 的 Web 服务 器 
会 将 Web 服务 器 连接 到 复杂 的 后 端 应 用 程序 上 去 。Web 服务 器 要 能 够 分 辨 出 资源 
什么 时 候 是 动态 的 ， 动 态 内 容 生 成 程序 位 于 何 处 ， 以 及 如 何 运 行 那个 程序 。 大 多 数 
Web 服务 器 都 提供 了 一 些 基 本 的 机 制 以 识别 和 映射 动态 资源。 

















特 网 











客户 端 服务 器 





















































5-11 Web 服务 器 可 以 提供 静态 资源 和 动态 资源 


Apache 允许 用 户 将 URI 路 径 名 组 件 映 射 为 可 执行 文件 目录 。 服 务 器 收 到 一 条 带 有 
可 执行 路 径 组 件 的 对 URI 的 请 求 时 ， 会 试 着 去 执行 相应 服务 器 目录 中 的 程序 。 例 
如 ， 下 列 Apache 配置 指令 就 表明 所 有 路 径 以 /cgi-bin/ 开头 的 URI 都 应 该 执行 在 目 
录 /usr/local/etc/httpd/cgi-programs/ 中 找到 的 相应 文件 : 
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ScriptAlias /cgi-bin/ /usr/local/etc/httpd/cgi-programs/ 
Apache 还 允许 用 户 用 一 个 特殊 的 文件 扩展 名 来 标识 可 执行 文件 。 通 过 这 种 方式 就 可 
以 将 可 执行 脚本 放 在 任意 目录 中 了 。 下 面 的 Apache 配置 指令 说 明 要 执行 所 有 以 .cgi 
结尾 的 Web 资源 : 


AddHandler cgi-script .cgi 


CGI 是 早期 出 现 的 一 种 简单 、 流 行 的 服务 端 应 用 程序 执行 接口 。 现 代 的 应 用 程序 服 
务 器 都 有 更 强大 更 有 效 的 服务 端 动态 内 容 支 持 机 制 ， 包 括 微软 的 动态 服务 器 页 面 


(Active Server Page) 和 Java servlet。 


5.7.4 ”服务 器 端 包含 项 

很 多 Web 服务 器 还 提供 了 对 服务 器 端 包含 项 (SSI) 的 支持 。 如 果 某 个 资源 被 标识 
为 存在 服务 器 端 包含 项 ， 服 务 器 就 会 在 将 其 发 送 给 客户 端 之 前 对 资源 内 容 进 行 处 理 。 
要 对 内 容 进行 扫描 ， 以 查找 (通常 包含 在 特定 HTML 注释 中 的 ) 特定 的 模板 ， 这 些 
模板 可 以 是 变量 名 ， 也 可 以 是 颈 入 式 脚本 。 可 以 用 变量 的 值 或 可 执行 脚本 的 输出 来 
取代 特定 的 模板 。 这 是 创建 动态 内 容 的 一 种 简便 方式 。 





5.7.5 ”访问 控制 

Web 服务 器 还 可 以 为 特定 资源 进行 访问 控制 。 有 请 求 到 达 ， 要 访问 受 控 资 源 时 ， 
Web 服务 器 可 以 根据 客户 端的 IP 地 址 进行 访问 控制 ， 也 可 以 要 求 输入 密码 来 访问 
资源 。 


更 多 与 HTTP 认证 有 关 的 信息 请 参见 第 12 章 。 


5.8 ”第 五 步 一 构建 响应 

— H. Web 服务 器 识别 出 了 资源 ， 就 执行 请 求 方法 中 描述 的 动作 ， 并 返回 响应 报 文 。 
响应 报 文中 包含 有 响应 状态 码 、 响 应 首部 ， 如 果 生 成 了 响应 主体 的 话 ， 还 包括 响应 
主体 。3.4 节 详 细 介 绍 了 HTTP 响应 代码 。 








5.8.1 响应 实体 
如 果 事 务 处 理 产生 了 响应 主体 ， 就 将 内 容 放 在 响应 报 文中 回 送 过 去 。 如 果 有 响应 主 
体 的 话 ， 响 应 报 文中 通常 包括 : 


























° 描述 了 响应 主体 MIME 类 型 的 Content-Type 首部 ，; 
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° 描述 了 响应 主体 长 度 的 Content-Length 首部 ; 
。 实际 报 文 的 主体 内 容 。 


5.8.2 ”MIME 类 型 
Web 服务 器 要 负责 确定 响应 主体 的 MIME 类 型 。 有 很 多 配置 服务 器 的 方法 可 以 将 
MIME 类 型 与 资源 关联 起 来 。 
° MIME 类 型 (mime.types) 
Web 服务 器 可 以 用 文件 的 扩展 名 来 说 明 MIME 类 型 。Web 服务 器 会 为 每 个 资源 


扫描 一 个 包含 了 所 有 扩展 名 的 MIME 类 型 的 文件 ， 以 确定 其 MIME 类 型 。 这 种 
基于 扩展 名 的 类 型 相关 是 最 常见 的 ， 参 见 图 5-12。 











HTTP 请 求 报 文中 包含 命令 和 URI saw-blade.gif 文 件 
b| GET /specials/saw-blade.gif HTTP/1.0 eU " 
Host: www.joes-hardware.com iu : 
A He 
客户 端 4 Content y EQ 4 wi oes hardvare com 

| Content-length: 8572 * | 服务 器 的 MIME 类 型 表 : 























= application/msword doc 
= application/postscript ai eps ps 
application/powerpoint ppt 
NC audio/mpeg mpga mp2 
' «image/gif gi 
i image/jpe eg jpg jpe 
inage/U ff uH ur 
text/html html htm 
text/plain txt 
video/mpeg mpeg mpg mpe 
video/quicktime qt mov 
video/x-msvideo avi 
x-word/x-vrml wrl vrml 

















5-12. Web 服务 器 用 MIME 类 型 文件 来 设置 资源 输出 的 Content-type 首部 


° 魔法 分 类 (Magic typing) 
Apache Web 服务 器 可 以 扫描 每 个 资源 的 内 容 ， 并 将 其 与 一 个 已 知 模式 表 (被 称 
为 魔法 文件 ) 进行 匹配 ， 以 决定 每 个 文件 的 MIME 类型。 这 样 做 可 能 比较 慢 ， 
但 很 方便 ， 尤 其 是 文件 没有 标准 扩展 名 的 时 候 。 

° 显 式 分 类 (Explicit typing) 


可 以 对 Web 服务 器 进行 配置 ， 使 其 不 考虑 文件 的 扩展 名 或 内 容 ， 强 制 特定 文件 
或 目录 内 容 拥 有 某 个 MIME 类 型 。 
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类 型 协商 

有 些 Web 服务 器 经 过 配置 ， 可 以 以 多 种 文档 格式 来 存储 资源 。 在 这 种 情况 下 ， 
可 以 配置 Web 服务 器 ， 使 其 可 以 通过 与 用 户 的 协商 来 决定 使 用 哪 种 格式 (及 相 
XAJ MIME 类 型 )“ 最 好 ”。 这 个 问题 将 在 第 17 章 讨 论 。 


还 可 以 通过 配置 Web 服务 器 ， 将 特定 的 文件 与 MIME 类 型 相关 联 。 




















5.8.3” 重 定向 

Web 服务 器 有 时 会 返回 重 定向 响应 而 不 是 成 功 的 报 文 。 Web 服务 器 可 以 将 浏览 器 
重 定向 到 其 他 地 方 来 执行 请 求 。 重 定向 响应 由 返回 码 3XX 说 明 。Location l] P 
部 包含 了 内 容 的 新 地 址 或 优选 地 址 的 URI。 重 定向 可 用 于 下 列 情况 。 








永久 搬 离 的 资源 

资源 可 能 已 经 被 移动 到 了 新 的 位 置 ， 或 者 被 重新 命名 ， 有 了 一 个 新 的 URL. Web JR 
务 器 可 以 告诉 客户 端 资 源 已 经 被 重 命 名 了 ， 这 样 客户 端 就 可 以 在 从 新 地 址 获取 资源 
之 前 ， 更 新 书签 之 类 的 信息 了 。 状 态 码 301 Moved Permanently 就 用 于 此 类 重 定 向 。 


临时 搬 离 的 资源 

如 果 资 源 被 临时 移 走 或 重 命名 了 ， 服 务 器 可 能 希望 将 客户 端 重 定向 到 新 的 位 置 上 
去 。 但 由 于 重 命名 是 临时 的 ， 所 以 服务 器 希望 客户 端 将 来 还 可 以 回头 去 使 用 老 的 
URL， 不 要 对 书签 进行 更 新 。 状 态 码 303 See Other 以 及 状态 码 307 Temporary 
Redirect 就 用 于 此 类 重 定向 。 


URL 增强 

服务 器 通常 用 重 定向 来 重 写 URL， 往 往 用 于 舱 入 上 下 文 。 当 请 求 到 达 时 ， 服 务 
器 会 生成 一 个 新 的 包含 了 和 骨 入 式 状态 信息 的 URL， 并 将 用 户 重 定向 到 这 个 新 的 
URL 上 去 。 客户 端 会 跟随 这 个 重 定向 信息 ， 重 新 发 起 请 求 ， 但 这 次 的 请 求 会 包 
含 完整 的 、 经 过 状态 增强 的 URL。 这 是 在 事务 间 维 护 状 态 的 一 种 有 效 方式 。 状 
态 码 303 See Other 和 307 Temporary Redirect 用 于 此 类 重 定向 。 

负载 均衡 

如 果 一 个 超载 的 服务 器 收 到 一 条 请 求 ， 服 务 器 可 以 将 客户 端 重 定向 到 一 个 负载 不 大 
重 的 服务 器 上 去 。 状 态 码 303 See Other 和 307 Temporary Redirect 可 用 于 此 类 重 定向 。 
服务 器 关联 

Web 服务 器 上 可 能 会 有 某 些 用 户 的 本 地 信息 ， 服务 器 可 以 将 客户 端 重 定向 到 包含 
了 那个 客户 端 信息 的 服务 器 上 去 。 状 态 码 303 See Other 和 307 Temporary Redirect 
可 用 于 此 类 重 定向 。 
































E7: 有 时 会 将 这 些 经 过 扩展 和 状态 增强 的 URL 称 为 “ 胖 URL", 
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。 规范 目录 名 称 
客户 端 请 求 的 URI 是 一 个 不 带 尾部 斜 线 的 目录 名 时 ， 大 多 数 Web 服务 器 都 会 将 
客户 端 重 定向 到 一 个 加 了 和 斜 线 的 URI 上， 这样 相 对 链接 就 可 以 正常 工作 了 。 


5.9 第 六 步 
Web 服务 器 通过 连接 发 送 数据 时 也 会 面临 与 接收 数据 一 样 的 问题 。 服 务 器 可 能 有 很 
多 条 到 各 个 客户 端的 连接 ， 有 些 是 空 靖 的 ， 有 些 在 向 服务 器 发 送 数据 ， 还 有 一 些 在 
向 客户 端 回 送 响应 数据 。 


服务 器 要 记录 连接 的 状态 ， 还 要 特别 注意 对 持久 连接 的 处 理 。 对 非 持 和 久 连 接 而 言 ， 
服务 器 应 该 在 发 送 了 整 条 报 文 之 后 ， 关 闭 自己 这 一 端的 连接 。 


对 持久 连接 来 说 ， 连 接 可 能 仍 保持 打开 状态 ， 在 这 种 情况 下 ， 服 务 器 要 特别 小 心 ， 
要 正确 地 计算 Content-Length 首部 ， 不 然 客户 端 就 无 法 知道 响应 什么 时 候 结 束 了 
(参见 第 4 章 )。 


5.10 第 七 步 nS 


最 后 ， 当 事务 结束 时 ，Web 服务 器 会 在 日 志文 件 中 添加 一 个 条 目 ， 来 描述 已 执行 的 
事务 。 大 多 数 Web 服务 器 都 提供 了 几 种 日 志 配 置 格式 。 更 多 细节 请 参见 第 21 章 


5.11 更 多 信息 


EZAK Apache, Jigsaw 和 ident 的 信息 ， 参 见 以 下 参考 资源 














* Apache:The Definitive Guide! (《Apache 权威 指南 》) 
Ben Laurie 和 Peter Laurie 编写 ，O Reilly & Associates 公司 出 版 。 


° Professional Apache 
Peter Wainwright 编写 ，Wrox 公司 出 版 。 


° http://www.w3c.org/Jigsaw/ 
Jigsaw 一 一 W3C 的 服务 器 W3C 联盟 Web 站 点 。 


° http://www .ietf.org/rfc/rfc1413.txt 
RFC 1413, M. St. Johns 编写 的 “Identification Protocol" ( EgiHEMX" ), 

















iE 8: 本 书 影印 版 由 中 国电 力 出 版 社 出 版 。( 编 者 注 
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Web 代理 (proxy) 服务 器 是 网 络 的 中 间 实 体 。 代 理 位 于 客户 端 和 服务 器 之 间 ， 扮 演 
“中 间 人 ”的 角色 ， 在 各 端点 之 间 来 回 传送 HTTP 报 文 。 本 章 介绍 了 所 有 与 HTTP 
代理 服务 器 有 关 的 内 容 ， 为 代理 特性 提供 的 特殊 支持 ， 以 及 使 用 代理 服务 器 时 会 遇 
到 的 一 些 环 手 的 问题 。 








本 章 主要 内 容 如 下 : 


° 对 HTTP 代理 进行 解释 ， 将 其 与 Web 网 关 进 行 对 比 ， 并 说 明 如 何 部 署 代理 ， 

。 给 出 一 些 代理 所 能 提供 的 帮助 ，; 

说 明 在 现实 网 络 中 是 怎样 部 署 代理 以 及 如 何 将 网 络 流量 导向 代理 服务 器 ， 

。 说 明 如 何 配置 浏览 器 来 使 用 代理 ， 

° 展示 HTTP 的 代理 请 求 ， 说 明 它 们 与 服务 器 请 求 的 区 别 ， 以 及 代理 是 如 何 微妙 地 
改变 浏览 器 行为 的 ; 

° 解释 如 何 通 过 via 首部 和 TRACE 方法 来 记录 报 文 传输 路 径 上 的 代理 服务 器 链 ， 

描述 基于 代理 的 HTTP 访问 控制 方法 ; 

解释 代理 如 何 与 客户 端 和 服务 器 进行 交互 ， 每 个 客户 端 和 服务 器 支持 的 特性 和 使 

用 的 版 本 都 可 能 有 所 不 同 。 


6.1 Web 的 中 间 实 体 


Web 上 的 代理 服务 器 是 代表 客户 端 完成 事务 处 理 的 中 间 人 。 如 果 没 有 Web 代理 ， 
HTTP 客户 端 就 要 直接 与 HTTP 服务 器 进行 对 话 。 有 了 Web 代理 ， 客 户 端 就 可 以 与 
代理 进行 对 话 ， 然 后 由 代理 代表 客户 端 与 服务 器 进行 交流 。 客 户 端 仍然 会 完成 对 事 
务 的 处 理 ， 但 它 是 通过 代理 服务 器 提供 的 优质 服务 来 实现 的 。 




















HTTP 的 代理 服务 器 既是 Web 服务 器 又 是 Web 客户 端 。HTTP 客户 端 会 向 代理 发 送 
请 求 报 文 ， 代 理 服 务 器 必须 像 Web 服务 器 一 样 ， 正 确 地 处 理 请 求 和 连接 ， 然 后 返回 
响应 。 同 时 ， 代 理 自 身 要 向 服务 器 发 送 请 求 ， 这 样 ， 其 行为 就 必须 像 正确 的 HTTP 
客户 端 一 样 ， 要 发 送 请 求 并 接收 响应 (参见 图 6-1)。 如 果 要 创建 自己 的 HTTP 代 
理 ， 就 要 认真 地 遵循 为 HTTP 客户 端 和 HTTP 服务 器 制定 的 规则 。 





6.1.1 私有 和 共享 代理 
代理 服务 器 可 以 是 某 个 客户 端 专用 的 ， 也 可 以 是 很 多 客户 端 共享 的 。 单 个 客户 端 专 
用 的 代理 被 称 为 私有 代理 。 众 多 客户 端 共享 的 代理 被 称 为 公共 代理 。 





。 公共 代理 
大 多 数 代理 都 是 公共 的 共享 代理 。 集 中 式 代理 的 成 本 效率 更 高 ， 更 容易 管理 。 某 些 








136 | 第 6 章 


代理 应 用 ， 比 如 高 速 缓存 代理 服务 器 ， 会 利用 用 户 间 共同 的 请 求 ， 这 样 的 话 ， 
入 同一 个 代理 服务 器 的 用 户 越 多 ， 它 就 越 有 用 。 


。 私有 代理 
专用 的 私有 代理 并 不 常见 ， 但 它们 确实 存在 ， 尤 其 是 直接 运行 在 客户 端 计算 机 上 
的 时 候 。 有 些 浏览 器 辅助 产品 ， 以 及 一 pesi 会 在 用 户 的 PC 上 直接 运行 
一 些小 型 的 代理 ， 以 便 扩展 浏览 器 特性 ， 提 高 性 能 ， 或 为 免费 ISP 服务 提供 主机 
ws 











对 Web 客 户 端 来 说 ， 代 理 扮演 
的 是 服务 器 的 角色 ， 接 收 请 求 
































报 文 ， 返 回响 应 报 文 。 对 Web 服 务 器 来 说 ， 代 理 扮 演 的 是 客户 端的 角色 
N f 发 送 Web 请 求 报 文 ， 接 收 Web 响 应 报 文 。 


响应 
服务 器 


4 | 
L D 
(II 
' 





客户 端 











图 6-1 代理 既是 服务 器 ， 又 是 客户 端 


6.1.2 ”代理 与 网 关 的 对 比 

严格 来 说 ， 人 而 网 关连 接 的 则 是 
两 个 或 多 个 使 用 不 同 协议 的 端点 。 网 关 扮 演 的 是 “协议 转换 器 ”的 角色 ， 即 使 客户 
端 和 服务 器 使 用 的 是 不 同 的 协议 ， 客 户 端 也 可 以 通过 它 完成 与 服务 器 之 间 的 事务 
处 理 。 

















6-2 显示 了 代理 和 网 关 之 间 的 区 别 。 


° 图 6-2a 中 的 中 间 设 备 是 一 个 HTTP 代理 ， 因 为 代理 与 客户 端 和 服务 器 之 间 使 用 

的 都 是 HTTP 协议 。 

。 图 6-2b 中 的 中 间 设 备 是 一 个 HTTP/POP 网 关 ， 因 为 它 把 HTTP 的 前 台 与 POP 
E-mail 的 后 端 连 接 了 起 来 。 网 关 将 Web 事务 转换 成 适当 的 POP 事务 ， 这 样 用 户 
就 可 以 通过 HTTP 读 取 E-mail 了 。 基 于 Web 的 E-mail 程序 ， 比 如 Yahoo! 邮件 
和 MSN Hotmail 都 是 HTTP E-mail 网 关 。 
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(a)HTTP/HTTP 代理 
HTTP = HTTP 
Web 代 理 
浏览 器 
(b)HTTP/POP 网 关 
HTTP POP 
浏览 器 Web/E-mail 网 关 E-mail 服 务 器 








图 6-2 ”代理 使 用 同一 种 协议 ， 网 关 则 将 不 同 的 协议 连接 起 来 


实际 上 ， 代 理 和 网 关 之 间 的 区 别 很 模糊 。 由 于 浏览 器 和 服务 器 实现 的 是 不 同 版 本 的 
HTTP， 代 理 也 经 常 要 做 一 些 协议 转换 工作 。 而 商业 化 的 代理 服务 器 也 会 实现 网 关 
的 功能 来 支持 SSL 安全 协议 、SOCKS 防火 墙 、FTP 访问 ， 以 及 基于 Web 的 应 用 程 
序 。 我 们 将 在 第 8 章 详细 介绍 网 关 。 


6.2 为 什么 使 用 代理 


代理 服务 器 可 以 实现 各 种 时 晓 且 有 用 的 功能 。 它 们 可 以 改善 安全 性 ， 提 高 性 能 ， 证 
省 费用 。 代 理 服 务 器 可 以 看 到 并 接触 到 所 有 流 过 的 HTTP 流量 ， 所 以 代理 可 以 监视 
流量 并 对 其 进行 修改 ， 以 实现 很 多 有 用 的 增值 Web 服务 。 这 里 给 出 了 儿 种 代理 使 用 
方法 的 示例 。 














儿童 过 滤器 

小 学 在 为 教育 站 点 提供 无 阻碍 访问 的 同时 ， 可 以 利用 过 滤器 代理 来 阻止 学 生 访 问 
成 人 内 容 。 如 图 6-3 所 示 ， 代 理应 该 允许 学 生 无 限制 地 访问 教育 性 内 容 ， 但 对 不 
适合 儿童 的 站 点 要 强行 禁止 访问 。， 

文档 访问 控制 

可 以 用 代理 服务 器 在 大 量 Web 服务 器 和 Web 资源 之 间 实 现 统一 的 访问 控制 策 
略 ， 创 建 审 核 跟踪 机 制 。 这 在 大 型 企业 环境 或 其 他 分 布 式 机 构 中 是 很 有 用 的 。 


在 集中 式 代理 服务 器 上 可 以 对 所 有 访问 控制 功能 进行 配置 ， 而 无 需 在 众多 由 
不 同 组 织 管理 、 不 同 厂商 制造 、 使 用 不 同 模式 的 Web 服务 器 上 进行 经 常 性 




















注 1: 有 些 公司 和 非 营 利 性 组 织 提供 了 过 滤 软 件 , 维 护 了 一 些 “ 黑 名 单 ”, 以 识别 并 限制 对 危害 性 内 容 的 访问 。 
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的 访问 控制 升级 。” 





回回 w 
Dm 


onime 


OK 





服务 器 
因特网 








代理 服务 器 














wm 


XXX 
Q DENY site contains 


adult content 





图 6-3 ”代理 应 用 程序 实例 ， 儿童 安全 的 因特网 过 滤器 
在 图 6-4 中 ， 集 中 式 访 问 控制 代理 : 





+ 允许 客户 端 1 无 限制 地 访问 服务 器 A 的 新 闻 页 面 
+ 客户 端 2 可 以 无 限制 地 访问 因特网 ， 
+ 在 允许 客户 端 3 访问 服务 器 B 之 前 ， 要 求 其 输入 口令 。 





L$ ins 








x xs] ; 访问 控 : 
TT ELT TEXT 
连接 到 因特网 | 因特网 
TI HER | 
l : 保密 
N- REY. mcns 的 
y L 起 要 发 往 服 std 
客户 端 3 dis s 务 器 B 的 请 求 


被 阻止 了 服务 器 B 


访问 这 些 财务 数 
据 的 密码 是 什么 ? 


[ |] 











图 6-4 代理 应 用 程序 实例 ; 集中 式 文档 访问 控制 








注 2: 为 防止 一 些 经 验 丰富 的 用 户 蕾 意 绕 过 控制 代理 ， 

















可 以 静态 地 配置 Web 服务 器 ， 使 其 仅 接受 来 上 








代理 





服务 器 的 请 求 。 
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° 安全 防火 墙 
网 络 安全 工程 师 通 常会 使 用 代理 服务 器 来 提高 安全 性 。 代 理 服务 器 会 在 网 络 中 的 
单一 安全 节点 上 限制 哪些 应 用 层 协议 的 数据 可 以 流入 或 流出 一 个 组 织 。 还 可 以 提 
供用 来 消除 病毒 的 Web 和 E-mail 代理 使 用 的 那 种 挂 钧 程序 ， 以 便 对 流量 进行 详 
细 的 检查 (参见 图 6-5). 


















































客户 端 服务 器 
p "s 因 特 网 

Ls 

客户 端 过 滤 路 由 器 e or ES 








= 
大 
ER 
a 
s 
3⁄ 
E 

= 

R 
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防火 墙 防火 墙 服务 器 











图 6-5 ”代理 应 用 程序 实例 :安全 防火 墙 


。 Web 缓存 
代理 缓存 维护 了 和 常用 文档 的 本 地 副本 ， 并 将 它们 按 需 提供 ， 以 减少 缓慢 旦 昂贵 的 
因特网 通信 。 


在 图 6-6 中 ， 客 户 端 1 和 客户 端 2 会 去 访问 附近 Web 缓存 上 的 对 象 A， 而 客户 
端 3 和 客户 端 4 访问 的 则 是 原始 服务 器 上 的 文档 。 


。 反 向 代理 
代理 可 以 假扮 Web 服务 器 。 这 些 被 称 为 替代 物 (surrogate) 或 反 向 代理 (re- 
verse proxy) 的 代理 接收 发 给 Web 服务 器 的 真实 请 求 ， 但 与 Web 服务 器 不 同 的 
是 ， 它 们 可 以 发 起 与 其 他 服务 器 的 通信 ， 以 便 按 需 定 位 所 请 求 的 内 容 。 


可 以 用 这 些 反 向 代理 来 提高 访问 慢 速 Web 服务 器 上 公共 内 容 时 的 性 能 。 在 这 种 
配置 中 ， 通 常 将 这 些 反 向 代理 称 为 服务 器 加 速 器 (server accelerator) (参见 图 
6-7)。 还 可 以 将 替代 物 与 内 容 路 由 功能 配合 使 用 ， 以 创建 按 需 复制 内 容 的 分 布 式 
网 络 。 
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g wettige ` 














dio 
原始 
服务 器 
6-6 ”代理 应 用 程序 实例 : Web 缓存 
因特网 
s 
Š tfo 
客户 端 (也 称 为 反 向 代理 服务 器 
或 服务 器 加 速 器 ) 











图 6-7 ”代理 应 用 程序 实例 ; (服务 器 加 速 器 实现 方式 中 的 ) 替代 物 


内 容 路 由 器 


代理 服务 器 可 以 作为 “内 容 路 由 器 ” 


请 求 导 向 特定 的 Web 服务 器 。 


使 用 ， 根 据 因特网 流量 状况 以 及 内 容 类 型 将 


内 容 路 由 器 也 可 以 用 来 实现 各 种 服务 级 的 请 求 。 比 如 ， 如 果 用 户 或 内 容 提供 者 付 





费 要 求 提供 更 高 的 性 能 ， 
6-8), 


内 容 路 由 器 可 以 将 请 求 转发 到 附近 的 复制 缓存 (参见 图 
或 者 如 果 用 户 申请 了 过 滤 服 务 ， 还 可 以 通过 过 滤 代 理 来 转发 HTTP 请 求 。 














可 以 用 自 适应 内 容 路 由 代理 来 构建 很 多 有 趣 的 服务 。 


。 转 码 器 
代理 服务 器 在 将 内 容 发 送 给 客户 端 之 前 ， 可 以 修改 内 容 的 主体 格式 。 在 这 些 数据 
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表示 法 之 间 进 行 的 透明 转换 被 称 为 转 码 (transcoding), ° 


转 码 代理 可 以 在 传输 GIF 图 片 时 ， 将 其 转换 成 JPEG 图 片 ， 以 减 小 尺寸 。 也 可 以 
对 图 片 进行 压缩 ， 或 降低 颜色 的 色彩 饱和 度 以 便 在 电视 上 观看 。 同 样 ， 可 以 对 文 
本 文件 进行 压缩 ， 并 为 能 够 使 用 因特网 的 呼 机 和 智能 手机 生成 小 型 的 文本 摘要 
Web 页 面 。 代 理 甚 至 可 以 在 传输 文档 的 过 程 中 将 其 转换 成 外 语 。 














服务 器 A 付费 将 内 容 分 布 到 复制 缓存 上 去 ， 但 服 
务 器 B 没 有 。 
内 容 路 由 器 将 Luis 导 向 复制 缓存 以 获取 A 的 页 面 ， 
但 B 的 页 面 仍 从 原始 服务 器 上 获取 。 





























O 










= 服务 器 B 


Web 代 理 缓存 














Rob p 
Sharon 为 性 能 付 了 费 ， 因 此 内 容 e° 
路 由 器 会 将 其 发 送 到 附近 的 组 a T 
存 上 去 。Rob 没 有 付费 ， 内 容 路 
由 器 会 将 其 送 到 原始 服务 器 。 


























图 6-8 ”代理 应 用 程序 实例 .内容 路 由 器 


图 6-9 显示 了 一 个 转 码 代理 ， 这 个 代理 可 以 将 英语 文本 转换 成 西班牙 语文 本 ， 将 
HTML 页 面 重 新 格式 化 为 较 简单 的 文本 ， 以 便 显示 在 手机 的 小 屏幕 上 。 


。 匿名 者 
匿名 者 代理 会 主动 从 HTTP 报 文中 删除 身份 特性 (比如 客户 端 IP HEHE, From 
首部 、Referer 首部 、cookie、URI 的 会 话 ID)， 从 而 提供 高 度 的 私密 性 和 匿 
名 性 。” 











注 3: 有 些 人 会 对 “ 转 码 ”和 “翻译 ”进行 区 分 ， 将 转 码 定义 为 对 数据 编码 进行 的 相对 简单 的 转换 (比如 无 
损 压 缩 )， 将 翻译 定义 为 更 重要 的 、 对 数据 的 重新 格式 化 或 语义 转换 。 我 们 用 术语 转 码 来 表示 所 有 在 

中 间 实 体 上 对 内 容 进行 的 修改 。 

注 4: 但 是 ,由 于 删除 了 识别 信息 ,用 户 浏 览 体验 的 质量 可 能 会 有 所 下 降 , 有 些 Web 站 点 可 能 会 无 法 正常 工作 。 















































142 第 6 = 











了 Playeras de Verano 


Obtendra muchas sonrisas 
y guiñios cuando use nuestras 
playeras de verano. _ 
Summer Beach Shirts 
O Blanco I You'll get lots of smiles 
and winks when you wear 








our summer beach shirts. 








使 用 西班牙 | 口 Negro 










































































语 的 客户 端 Naranja amanecer 
White 

Summer Beach Shirts Black 
You `ll get lots of smiles Sunrise orange 
and winks when you wear 人 n 
our. summer beach shirts. I 原始 服务 5 
1) White 转 码 代理 
2) Black 

能 上 网 3) Sunrise orange 

的 手机 





图 6-9 ”代理 应 用 程序 实例 ， 内 容 转 码 器 
在 图 6-10 中 ,匿名 代理 会 对 用 户 报 文 进 行 下 列 修改 以 增加 私密 性 。 





* M User-agent 首部 删除 用 户 的 计算 机 与 OS 类 型 。 
+ 删除 From 首部 以 保护 用 户 的 E-mail 地 址 。 

* 删除 Referer 首部 来 掩盖 用 户 访问 过 的 其 他 站 点 。 
* 删除 cookie 首部 以 剔除 概要 信息 和 身份 的 数据 。 

















GET /something/file.html HTTP/1.0 H- A 
Date: Sun, Ol Oct 2000 23:25:17 GMT 区 名 报 文 中 并 不 包 合 
User-agent: Mozilla/4.75 (Win98; U) 常见 的 身份 信息 首部 

From: Joet joes-hardware. com 

Referer: http://www.irs.gov/tax-audits.html | | GET /something/file.html HTTP/1.0 
Cookie: profile-"football,lite beer" Date: Sun, O1 Oct 2000 23:25:17 GMT 
Cookie: income-bracket-"30K-45K" User-agent: Mozilla/4.75 

















匿名 代理 
服务 器 


图 6-10 ”代理 应 用 程序 实例 ， 匿名 者 


63 ”代理 会 去 往 何 处 
前 一 小 节 解 释 了 代理 会 做 些 什 么 。 现 在 我 们 来 看 看 在 一 个 网 络 结构 中 部 署 代理 的 时 
修 ， 它 会 位 于 何 处 。 本 节 会 涵盖 以 下 内 容 : 

















。 怎样 将 代理 部 署 到 网 络 中 去 ， 
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怎样 将 代理 以 层级 方式 连接 在 一 起 ， 
怎样 先 将 网 络 流量 直接 导入 代理 服务 器 中 。 








6.3.1 代理 服务 器 的 部 署 
可 以 根据 其 目标 用 途 ， 将 代理 放 在 任意 位 置 。 图 6-11 给 出 了 部 署 代理 服务 器 的 几 种 
方式 。 





出 口 代理 

可 以 将 代理 固定 在 本 地 网 络 的 出 口 点 ， 以 便 控制 本 地 网 络 与 大 型 因特网 之 间 的 流 
量 。 可 以 在 公司 网 络 中 使 用 出 口 代理 (参见 图 6-11a)， 提 供 针对 公司 外 部 恶意 黑 
客 的 防火 墙 保护 ， 或 降低 带宽 费用 ， 提 高 因特网 流量 的 性 能 。 小 学 可 能 会 使 用 过 
滤 出 口 代 理 来 防止 早熟 的 学 生 训 览 不 恰当 的 内 容 。 











访问 (Au) 代理 

代理 常 被 放 在 ISP 访问 点 上 ， 用 以 处 理 来 自 客 户 的 聚合 请 求 。ISP 使 用 缓存 代理 
来 存储 常用 文档 的 副本 ， 以 提高 用 户 (尤其 是 高 速 连接 用 户 ) 的 下 载 速度 ， 降 低 
因特网 带宽 耗费 (参见 图 6-11b)。 








反 向 代理 

代理 通常 会 被 部 署 在 网 络 边缘 ， 在 Web 服务 器 之 前 ， 作 为 替代 物 (也 常 被 称 为 
反 向 代理 ， 参 见 图 6-11c) 使 用 ， 在 那里 它们 可 以 处 理 所 有 传送 给 Web 服务 器 
的 请 求 ， 并 只 在 必要 时 向 Web 服务 器 请 求 资源 。 替 代 物 可 以 提高 Web 服务 器 的 
安全 特性 ， 或 者 将 快速 的 Web 服务 器 缓存 放 在 较 慢 的 服务 器 之 前 ， 以 提高 性 能 。 
反 向 代理 通常 会 直接 冒 用 Web 服务 器 的 名 字 和 IP 地 址 ， 这 样 所 有 的 请 求 就 会 被 
发 送 给 代理 而 不 是 服务 器 了 。 














网 络 交换 代理 
可 以 将 具有 足够 处 理 能 力 的 代理 放 在 网 络 之 间 的 因特网 对 等 交换 点 上 ， 通 过 缓存 
来 减轻 因特网 节点 的 拥塞 ， 并 对 流量 进行 监视 ， 参 见 图 6-11d。” 








6.3.2 ”代理 的 层次 结构 

可 以 通过 代理 层次 结构 (proxy hierarchy) 将 代理 级 联 起 来 。 如 图 6-12 所 示 ， 在 代 
理 的 层次 结构 中 ， 会 将 报 文 从 一 个 代理 传 给 另 一 个 代理 ， 直 到 最 终 抵达 原始 服务 器 
Ab 〈 然 后 通过 代理 传 回 给 客户 端 )。 

















注 5: 核心 代理 通常 被 部 署 在 因特网 带宽 很 昂贵 的 地 方 (尤其 是 在 欧洲 )。 有 些 国家 (比如 英国 ) 还 会 出 于 






































对 国家 安全 的 考虑 ， 对 有 和 争议 的 代理 部 署 进 行 评估 ， 以 监测 因特网 流量 。 
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(a) 私有 LAN 的 出 口 代理 
客户 端 
ed 因特网 
TTE 服务 器 
(b) ISP 的 访问 代理 
客户 端 ü 
因特网 
ry 服务 器 
(c) 替代 物 
m 因特网 本 地 
网 络 
- 服务 器 
(d) 网 络 交换 代理 
网 络 1 "i 网 络 2 
E23. — = 
-一 路 由 器 OY REAR 
PIT 代理 服务 器 
图 6-11 可 以 根据 其 目标 用 途 ， 以 多 种 方式 来 部 署 代 理 
(代理 3 的 下 级 代理 ， 原始 服务 器 


























代理 1 的 上 级 代理 ) 





上 级 代理 ) 








图 6-12 


三 级 的 代理 层次 结构 
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Proxy 层次 结构 中 的 代理 服务 器 被 赋予 了 父 (parent) FF (child) 的 关系 。 下 一 个 
Au (inbound) 代理 (靠近 服务 器 ) 被 称 为 父 代理 ， 下 一 个 出 口 (outbound) 代理 
(靠近 客户 端 ) 被 称 为 子 代 理 。 在 图 6-12 中 ， 代 理 1 是 代理 2 的 子 代理 。 同 样 ， 代 
理 2 是 代理 3 的 子 人 代理， 代理 3 是 代理 2 的 父 代理 。 


























代理 层次 结构 的 内 容 路 由 

图 6-12 中 的 代理 层次 结构 是 静态 的 一 一 代理 1 总 是 会 将 报 文 转发 给 代理 2， 代理 2 
总 是 会 将 报 文 转发 给 代理 3。 但 是 ， 层 次 不 一 定 非得 是 静态 的 。 代 理 服 务 器 可 以 根 
据 众多 因素 ， 将 报 文 转 发 给 一 个 不 断 变 化 的 代理 服务 器 和 原始 服务 器 集 。 


比如 ， 在 图 6-13 中 ， 访 癌 代理 会 根据 不 同 的 情况 将 报 文 转 发 给 父 代理 或 原始 服 
F aR o 


° 如 有 果 所 请 求 的 对 象 属于 一 个 付费 使 用 内 容 分 发 服务 的 Web 服务 器 ， 代 理 就 会 将 
请 求 发 送 给 附近 的 一 个 缓存 服务 器 ， 这 个 服务 器 会 返回 已 缓存 对 象 ， 或 者 如 果 它 
那儿 没有 的 话 ， 它 会 去 取 回 内 容 。 

° 如 果 请 求 的 是 特定 类 型 的 图 片 ， 访 问 代 理会 将 请 求 转发 给 一 个 特定 的 压缩 代理 ， 
这 个 代理 会 去 获取 图 片 ， 然 后 对 其 进行 压缩 ， 这 样 通过 到 客户 端的 慢 速 Modem 
下 载 时 ， 速 度 会 更 快 一 些 。 


















































, BB 
EB 


全 球 范围 内 的 Web 服 务 器 























图 6-13 代理 层次 结构 可 以 是 动态 的 ， 随 请 求 而 变 的 
这 里 还 有 几 个 动态 选择 父 代理 的 例子 。 
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负载 均衡 
子 代理 可 能 会 根据 当前 父 代 理 上 的 工作 负载 级 别 来 决定 如 何 选择 一 个 父 代 理 ， 以 
均衡 负载 。 


地 理 位 置 附近 的 路 由 
子 代 理 可 能 会 选择 负责 原始 服务 器 所 在 物理 区 域 的 父 代理 。 








协议 /类 型 路 由 

子 代 理 可 能 会 根据 URI 将 报 文 转发 到 不 同 的 父 代理 和 原始 服务 器 上 去 。 某 些 特 
定 类 型 的 URI 可 能 要 通过 一 些 特殊 的 代理 服务 器 转发 请 求 ， 以 便 进行 特殊 的 协 
议 处 理 。 























基于 订购 的 路 由 
如 果 发 布 者 为 高 性 能 服务 额外 付费 了 ， 它 们 的 URI 就 会 被 转发 到 大 型 缓存 或 压 
缩 引 擎 上 去 ， 以 提高 性 能 。 


在 不 同 的 产品 中 ， 动 态 父 路 由 逻辑 的 实现 方式 各 有 不 同 ， 包 括 使 用 配置 文件 、 脚 
本 语言 和 动态 可 执行 插件 等 。 





6.3.3 代理 是 如 何 获取 流量 尽 
客户 端 通常 会 直接 与 Web 服务 器 进行 通信 ， 所 以 我 们 要 解释 清楚 HTTP 流量 怎样 才 
能 首先 流向 代理 。 有 四 种 常见 方式 可 以 使 客户 端 流量 流向 代理 。 








1⁄ X £ P d 

很 多 Web 客户 端 ， 包括 网 景 和 微软 的 浏览 器 ， 都 支持 手工 和 自动 的 代理 配置 。 
如 果 将 客户 端 配置 为 使 用 代理 服务 器 ， 客 户 端 就 会 将 HTTP 请 求 有 意 地 直接 发 送 
给 代理 ， 而 不 是 原始 服务 器 (参见 图 6-14a). 





修改 网 络 

网 络 基础 设施 可 以 通过 若干 种 技术 手段 ， 在 客户 端 不 知道 ， 或 没有 参与 的 情况 
下 ， 拦 截 网 络 流量 并 将 其 导入 代理 。 这 种 拦截 通常 都 依赖 于 监视 HTTP 流量 的 交 
换 设备 及 路 由 设备 ， 在 客户 端 毫 不 知情 的 情况 下 ， 对 其 进行 拦截 ， 并 将 流量 导入 
一 个 代理 (参见 图 6-14b)。 这 种 代理 被 称 为 拦截 (intercepting) 代理 。 ° 









































注 6: 拦截 代理 通常 被 称 为 “透明 代理 ”， 因 为 你 会 在 不 知情 的 情况 下 连接 到 这 些 代理 上 去 。 但 HTTP 规范 























中 已 用 “透明 ”来 表示 那些 不 会 对 语义 进行 修改 的 功能 了 ， 所 以 标准 制定 机 构建 议 在 流量 捕获 中 使 用 
术语 “拦截 *。 这 里 采纳 了 这 一 术语 。 
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° 修改 DNS 的 命名 空间 
放 在 Web 服务 器 之 前 的 代理 服务 器 一 一 替代 物 ， 会 直接 假扮 Web 服务 器 的 名 
字 和 了 王 地 址 ， 这 样 ， 所 有 的 请 求 就 会 发 送 给 这 些 替 代 物 ， 而 不 是 服务 器 了 ( 参 
见 图 6-14c)。 要 实现 这 一 点 ， 可 以 手工 编辑 DNS 名 称 列 表 ， 或 者 用 特殊 的 动态 
DNS 服务 器 根据 需要 来 确定 适当 的 代理 或 服务 器 。 有 时 在 安装 过 程 中 ， 真 实 服 
务 器 的 IP 地 址 和 名 称 被 修改 了 ， 和 替代 物 得 到 的 会 是 之 前 的 地 址 和 名 称 。 











° 修改 Web 服务 器 
也 可 以 将 某 些 Web 服务 器 配置 为 向 客户 端 发 送 一 条 HTTP 重 定向 命令 【响应 码 
305), ， 将 客户 端 请 求 重 定向 到 一 个 代理 上 去 。 收 到 重 定向 命令 后 ， 客 户 端 会 与 代 
理 进行 通信 (参见 图 6-14d) 。 








下 一 节 解 释 了 如 何 配置 客户 端 才能 使 其 将 流量 发 送 给 代理 。 第 20 章 会 说 明 如 何 配置 
网 络 、DNS 以 及 服务 器 ， 才 能 将 流量 重 定向 到 代理 服务 器 。 




















(a) 配置 为 使 用 代理 的 客户 端 (b) 拦截 流量 ， 将 其 重 定向 到 代理 的 网 络 。 














服务 器 





















客户 端 服务 器 
务 器 的 名 字 

















6-14 ”有 很 多 技巧 可 以 将 Web 请 求 导向 代理 


6.4 ”客户 端的 代理 设置 
所 有 现代 的 Web 浏览 器 都 允许 用 户 对 代理 的 使 用 进行 配置 。 实 际 上 ， 很 多 浏览 器 都 
提供 了 多 种 配置 代理 的 方式 ， 其 中 包括 以 下 几 种 。 
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。 手工 配置 
显 式 地 设置 要 使 用 的 代理 。 





。 预先 配置 浏览 器 
浏览 器 厂商 或 发 行商 会 在 将 浏览 器 发 送 给 其 客户 之 前 预先 对 浏览 器 (或 所 有 其 他 
Web 客户 端 ) 的 代理 设置 进行 手工 配置 。 


° 代理 的 自动 配置 (Proxy Auto-Configuration, PAC) 
提供 一 个 URI， 指 向 一 个 用 JavaScript 语言 编写 的 代理 自动 配置 文件 ， 客 户 端 会 
取 回 这 个 JavaScript 文件 ， 并 运行 它 以 决定 是 否 应 该 使 用 一 个 代理 ， 如 果 是 的 
话 ， 应 该 使 用 哪个 代理 服务 器 。 

。 WPAD 的 代理 发 现 
有 些 浏览 器 支持 Web 代理 自动 发 现 协 议 (Web Proxy Autodiscovery Protocol， 
WPAD)， 这 个 协议 会 自动 检测 出 浏览 器 可 以 从 哪个 “配置 服务 器 ”下 载 到 一 个 
自动 配置 文件 。” 


6.4.1 客户 端的 代理 配置 : 手工 配置 
很 多 Web 客户 端 都 允许 用 户 手工 配置 代理 。 网 景 的 Navigator 和 微软 的 Internet 
Explorer 都 为 代理 配置 提供 了 便捷 的 支持 。 





在 网 景 的 Navigator 6 中 ， 可 以 通过 菜单 选项 Edit (编辑 ) 一 Preferences (首选 项 ) 一 
Advanced (高 级 ) 一 Proxies (代理 ) ， 然 后 选中 单 选 按钮 “Manual proxy” (手工 配 
置 代理 ) 来 指定 代理 。 

在 微软 的 Internet Explorer 5 中 ， 可 以 在 Tools (工具 ) — Internet Options (Internet 


选项 ) 菜单 中 ， 选 择 一 个 连接 ， 点 击 “Settings”( 设 置 )， 选 中 “Use a proxy 
server”( 使 用 代理 服务 器 ) 杠 ， 并 点 击 “Advanced”( 高 级 )， 来 手工 指定 代理 。 


其 他 浏览 器 都 有 不 同 的 方式 来 进行 手工 配置 的 修改 ,但 其 思想 是 一 样 的 ， 为 代理 指 
定 主 机 和 端口 。 有 些 ISP 会 向 客户 发 送 预 先 配 置 好 的 浏览 器 ， 或 定制 好 的 操作 系统 ， 
使 其 将 Web 流量 重 定向 到 代理 服务 器 上 。 





6.4.2 ”客户 端 代理 配置 PAC 文 件 
手工 代理 配置 很 简单 但 有 些 死板 。 只 能 为 所 有 内 容 指定 唯一 的 一 个 代理 服务 器 ， 而 
且 不 支持 故障 转移 。 手 工 代 理 配 置 还 会 给 大 型 组 织带 来 管理 问题 。 如 果 配 置 过 的 浏 











注 7: 当前 只 有 Internet Explorer 支持 这 一 特性 。 
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览 器 基数 很 天， 那么 需要 进行 修改 的 时 候 ， 重 新 配置 每 个 浏览 器 是 非常 困难 ， 甚 至 


PAC 文件 是 一 些小 型 的 JavaScript 程序 ， 可 以 在 运行 过 程 中 计算 代理 设置 ， 因 此 ， 
是 一 种 更 动态 的 代理 配置 解决 方案 。 访 问 每 个 文档 时 ，JavaScript 函数 都 会 选择 恰 
当 的 代理 服务 器 。 


要 使 用 PAC 文件 ， 就 要 用 JavaScript PAC 文件 的 URI 来 配置 浏览 器 [配置 方式 与 
手工 配置 类 似 ， 但 要 在 “automatic configuration" (自动 配置 ) 框 中 提供 一 个 URI] 。 
浏览 器 会 从 这 个 URI E3XÀX PAC 文件， 并 用 JavaScript 逻辑 为 每 次 访问 计算 恰当 
的 代理 服务 器 。PAC 文件 的 后 组 通常 是 pac, MIME 类 型 通常 是 application/x-ns- 


proxy-autoconfig, 

















每 个 PAC 文件 都 必须 定义 一 个 名 为 FindProxyForURL (url,host) 的 国 数 ， 用 
来 计算 访问 URI 时 使 用 的 适当 的 代理 服务 器 。 函 数 的 返回 值 可 以 是 表 6-1 列 出 的 
任意 值 。 


表 6-1 代理 自动 配置 脚本 的 返回 值 




















FindProxyForURL 的 返回 值 Tü 述 
DIRECT 不 经 过 任何 代理 ， 直 接 进 行 连接 
PROXY host:port 应 该 使 用 指定 的 代理 
SOCKS host:port 应 该 使 用 指定 的 socks 服务 器 




















例 6-1 中 的 PAC 文件 为 HTTP 事务 处 理 指 定 了 一 个 代理 ， 为 FTP 事务 处 理 指定 了 
另 一 个 代理 ， 并 为 所 有 其 他 类 型 的 事务 处 理 使 用 直 连 方式 。 


例 6-1 代理 自动 配置 文件 示例 


function FindProxyForURL(url, host) ( 
if (url.substring(0,5) == "http:") ( 
return "PROXY http-proxy.mydomain.com:8080"; 
) else if (url.substring(0,4) =="ftp:") Í 
return "PROXY ftp-proxy.mydomain.com:8080"; 
) eise { 
return "DIRECT"; 
































) 
) 


更 多 有 关 PAC 文件 的 细节 ， 请 参见 第 20 章 。 


6.4.3 客户 端 代理 配置 : WPAD 
另 一 种 浏览 器 配置 机 制 是 WPAD 协议 。WPAD 协议 的 算法 会 使 用 发 现 机 制 的 和 逐 








级 上 升 策略 自动 地 为 浏览 器 查找 合适 的 PAC 文件 。 实 现 WPAD 协议 的 客户 端 
需要 : 


* 用 WPAD 找到 PAC 的 URI; 

° 从 指定 的 URI 获取 PAC 文件; 

° 执行 PAC 文件 来 判定 代理 服务 器 ，; 
。 为 请 求 使 用 代理 服务 器 。 


WPAD 会 使 用 一 系列 的 资源 发 现 技术 来 判定 适当 的 PAC 文件 。 并 不 是 所 有 组 织 都 
能 够 使 用 所 有 的 发 现 技术 ， 所 以 WPAD 使 用 了 很 多 种 发 现 技术 。WPAD 会 一 个 接 
一 个 地 对 每 种 技术 进行 尝试 ， 直 到 成 功 为 止 。 


当前 的 WPAD 协议 规范 按 顺 序 定 义 了 下 列 技术 : 


° 动态 主机 配置 协议 (Dynamic Host Configuration Protocol, DHCP) ; 
。 服务 定位 协议 (Service Location Protocol, SLP) ; 

* DNS 知名 主机 名 ， 

。 DNS SRV 记录 ， 

。 TXT 记录 中 的 DNS 服务 URI。 


更 多 信息 ， 请 参阅 第 20 w, 


65 与 代理 请 求 有 关 的 一 些 棘手 问题 


本 节 对 与 代理 服务 器 请 求 有 关 的 一 些 比 较 环 手 且 易 被 误解 的 问题 进行 了 解释 ， 其 中 
包括 : 


。 代理 请 求 中 的 URI 和 服务 器 请 求 中 的 URI 有 何不 同 ，; 

° 拦截 和 反 向 代理 是 如 何 将 服务 器 主机 信息 隐藏 起 来 的 ; 

。 修改 URI 的 规则 ， 

。 代理 是 怎样 影响 浏览 器 的 智能 URI 自动 完成 机 制 ， 或 主机 名 扩展 特性 的 。 











6.5.1 代理 URI 与 服务 器 URI 的 不 同 

除了 一 点 之 外 ，Web 服务 器 报 文 和 Web 代理 报 文 的 语法 是 一 样 的 。 客 户 端 向 服务 
器 而 不 是 代理 发 送 请 求 时 ，HTTP 请 求 报 文中 的 URI 会 有 所 不 同 。 

客户 端 向 Web 服务 器 发 送 请 求 时 ， 请 求 行 中 只 包含 部 分 URI (没有 方案 、 主 机 或 端 
H), ， 如 下 例 所 示 : 











代 理 | 151 








143 














144 








GET /index.html HTTP/1.0 
User-Agent: SuperBrowser v1.3 


但 当 客 户 端 向 代理 发 送 请 求 时 ， 请 求 行 中 则 包含 完整 的 URI, Zn: 


GET http://www.marys-antiques.com/index.html HTTP/1.0 

User-Agent: SuperBrowser v1.3 
为 什么 会 有 两 种 不 同 的 请 求 格式 ， 一 种 用 于 代理 ， 另 一 种 用 于 服务 器 呢 ? 在 原始 的 
HTTP 设计 中 ， 客 户 端 会 直接 与 单个 服务 器 进行 对 话 。 不 存在 虚拟 主机 ， 也 没有 为 
代理 制定 什么 规则 。 单 个 的 服务 器 都 知道 自己 的 主机 名 和 端口 ， 所 以 ， 为 了 避免 发 
送 元 余 信 息 ， 客 户 端 只 需 发 送 部 分 URI 即 可 ， 无 需 发 送 方案 和 主机 〈 以 及 端口 ) 。 


代理 出 现 之 后 ， 使 用 部 分 URI 就 有 问题 了 。 代 理 需 要 知道 目标 服务 器 的 名 称 ， 这 样 
它们 才能 建立 自己 与 服务 器 的 连接 。 基 于 代理 的 网 关 要 知道 URI 的 方案 才能 连接 到 
FTP 资源 和 其 他 方案 上 去 。HTTP/1.0 要 求 代理 请 求 发 送 完 整 的 URI， 解 决 了 这 个 回 
题 ， 但 它 为 服务 器 请 求 保留 部 分 URI 的 形式 (已 经 有 相当 多 的 服务 器 都 改 为 支持 完 
# URI f), * 


因此 ， 我 们 要 将 部 分 URI 发 送 给 服务 器 ， 将 完整 URI 发 送 给 代理 。 在 显 式 地 配置 客 
户 端 代理 设置 的 情况 下 ， 客 户 端 就 知道 要 发 布 哪 种 类 型 的 请 求 了 。 























(1) 没有 设置 客户 端 使 用 代理 时 ， 它 会 发 送 部 分 URI (参见 图 6-15a)。 
(2) 设置 客户 端 使 用 代理 时 ， 它 会 发 送 完 整 URI (参见 图 6-15b)。 





6.5.2 与 虚拟 主机 一 样 的 问题 

代理 “缺少 方案 /主机 /端口 ”的 问题 与 虚拟 主机 Web 服务 器 面临 的 问题 相同 。 虚 
拟 主机 Web 服务 器 会 在 很 多 Web 站 点 间 共 享 同一 个 物理 Web 服务 器 。 包 含 部 分 
URI (比如 /index.html) 的 请 求 到 达 时 ， 虚 拟 主 机 Web 服务 器 需要 知道 目的 Web 站 
点 的 主机 名 (更 多 信息 请 参见 5.7.1 市 和 18.2 市 )。 


尽管 它们 出 现 的 问题 相似 ， 但 解决 方法 却 有 所 不 同 : 


。 显 式 的 代理 要 求 在 请 求 报 文中 使 用 完整 URI 来 解决 这 个 问题 ， 
° 虚拟 主机 Web 服务 器 要 求 使 用 Host 首部 来 承载 主机 和 端口 信息 。 

















注 8: 现在 ，HTTP/1.1 要 求 服务 器 为 代理 请 求 和 服务 器 请 求 都 提供 完整 的 URI 处 理 ， 但 实际 上 ， 很 多 已 
署 的 服务 器 仍然 只 接受 部 分 URI。 


nz 
= 




















(a) 服务 器 请 求 GET /index.html HTTP/1.0 


User-agent: SuperBrowser v1.3 B 


客户 端 原始 服务 器 























GET http://www.marys-antiques.com/index.html HTTP/1.0 
User-agent: SuperBrowser v1.3 








客户 端 ”( 显 式 配置 了 代理 ) 代理 服务 器 。 原始 服务 器 





(c) 替代 物 ( 反 向 代理 ) 请 求 GET /index.html HTTP/1.0 


User-agent: SuperBrowser v1.3 
| 

















(d) 拦截 代理 请 求 


GET /index.html HTTP/1.0 


User-agent: SuperBrowser v1.3 
客户 端 

















原始 服务 器 

















图 6-15 拦截 代理 会 获取 服务 器 请 求 


6.5.3 ”拦截 代理 会 收 到 部 分 URI 

只 要 客户 端正 确 地 实现 了 HITP， 它 们 就 会 在 请 求 中 包含 完整 的 URI， 发 送 给 经 过 
显 式 配置 的 代理 。 这 样 解决 了 部 分 问题 ， 但 还 有 一 个 问题 : 客户 端 并 不 总 是 知道 它 
是 在 和 代理 进行 对 话 ， 因 为 有 些 代 理 对 客户 端 可 能 是 不 可 见 的 。 即 使 疫 有 将 客户 端 
配置 为 使 用 代理 ， 客 户 端的 流量 也 可 能 会 经 过 替代 物 或 拦截 代理 。 在 这 两 种 情况 下 ， 
客户 端 都 会 认为 它 在 与 Web 服务 器 进行 对 话 ， 不 会 发 送 完整 的 URI。 


° 如 前 所 述 ， 反 向 代理 是 一 个 用 来 取代 原始 服务 器 的 代理 服务 器 ， 它 通常 会 通过 假 
扮 服务 器 的 主机 名 或 IP 地 址 来 做 到 这 一 点 。 它 会 收 到 Web 服务 器 请 求 ， 可 能 会 
向 真正 的 服务 器 提供 缓存 的 响应 或 者 代理 请 求 。 客 户 端 无 法 区 分 反 向 代理 和 Web 
服务 器 ， 因 此 它 会 发 送 部 分 URI (参见 图 6-15c) 。 
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。 拦截 代理 是 网 络 流 量 中 的 代理 服务 器 ， 它 会 拦截 从 客户 端 发 往 服务 器 的 请 求 ， 并 
提供 一 个 缓存 响应 ， 或 对 其 进行 转发 。 由 于 拦截 代理 拦截 了 从 客户 端 到 服务 器 的 
流量 ， 所 以 它 会 收 到 发 送 给 Web 服务 器 的 部 分 URI (参见 图 6-15d)。” 








6.5.4 代理 既 可 以 处 理 代理 请 求 ， 也 可 以 处 理 服务 器 请 求 

由 于 将 流量 重 定向 到 代理 服务 器 的 方式 有 所 不 同 ， 通 用 的 代理 服务 器 既 应 该 支持 请 
求 报 文中 的 完整 URI， 也 应 该 支持 部 分 URI。 如 果 是 显 式 的 代理 请 求 ， 代 理 就 应 该 
使 用 完整 URI， 如 果 是 Web 服务 器 请 求 ， 就 应 该 使 用 部 分 URI 和 虚拟 Host 首部 。 


使 用 完整 和 部 分 URI 的 规则 如 下 所 示 。 


。 如 果 提 供 的 是 完整 URI， 代 理 就 应 该 使 用 这 个 完整 URI。 

° 如 果 提 供 的 是 部 分 URI， 而 且 有 Host 首部 ， 就 应 该 用 Host 首部 来 确定 原始 服 
务 器 的 名 字 和 端口 号 。 

° 如 果 提 供 的 是 部 分 URI, 而 且 没 有 Host 首部 ,就 要 用 其 他 方法 来 确定 原始 服务 器 : 
一 如 果 代 理 是 代表 原始 服务 器 的 替代 物 ， 可 以 用 真实 服务 器 的 地 址 和 端口 号 来 

配置 代理 ， 

- 如 果 流 量 被 拦截 了 ， 而 且 拦 截 者 也 可 以 提供 原始 的 IP 地 址 和 端口 ， 代 理 就 可 

以 使 用 拦截 技术 提供 的 IP 地 址 和 端口 号 (参见 第 20 章 ) ; 

如 果 所 有 方法 都 失败 了 ， 代 理 没 有 足够 的 信息 来 确定 原始 服务 器 ， 就 必须 返 

回 一 条 错误 报 文 (通常 是 建议 用 户 升级 到 支持 Host 首部 的 现代 浏览 器 )。” 

6.5.5 ”转发 过 程 中 对 URI 的 修改 

代理 服务 器 要 在 转发 报 文 时 修改 请 求 URI 的 话 ， 需 要 特别 小 心 。 对 URI 的 微小 修 

改 ， 甚 至 是 看 起 来 无 害 的 修改 ， 都 可 能 给 下 游 服务 器 带 来 一 些 互 操作 性 问题 。 


尤其 是 ， 现 在 已 知 有 些 代 理会 在 将 URI 转 发 给 下 一 跳 节 点 之 前 将 URI“ 规 范 ” 为 标 
准 格式 。 有 些 看 起 来 无 害 的 转换 行为 ， 比 如 用 显 式 的 “:80” 来 取代 默认 的 HTTP 端 
口 ， 或 者 用 适当 的 换 码 转 义 符 来 取代 非法 的 保留 字符 以 校正 URI， 就 可 能 造成 互 操 
作 性 问题 。 


总 之 ， 代 理 服务 器 要 尽量 宽容 一 些 。 它 们 的 目标 不 是 成 为 强制 实现 严格 协议 一 致 性 

















注 9: 在 某 些 情况 下 ， 拦 截 代理 可 能 也 会 拦截 客户 端 到 代理 的 流量 ， 在 这 种 情况 下 ， 拦 截 代理 可 能 会 收 到 完 

整 URI， 并 需要 对 其 进行 处 理 。 由 于 显 式 代理 的 通信 端口 通常 与 HTTP 使 用 的 端口 有 所 不 同 (通常 是 
8080 而 不 是 80) ， 而 且 拦截 代理 通常 只 对 端口 80 进行 拦截 ， 所 以 这 种 情况 并 不 会 经 常 发 生 。 

注 10: 不 应 该 经 常 这 么 做 。 因 为 用 户 会 收 到 之 前 从 未 收 到 过 的 神秘 错误 页 面 。 
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的 “协议 警察 ” ， 因 为 这 样 可 能 会 严重 破坏 之 前 能 正常 工作 的 服务 。 


特别 是 ，HTTP 规范 禁止 一 般 的 拦截 代理 在 转发 URI 时 重 写 其 绝对 路 径 部 分 。 唯 一 
的 例外 是 可 以 用 “/” 来 取代 空 路 径 。 


6.5.6 URI 的 客户 端 自动 扩展 和 主机 名 解析 

根据 是 否 有 代理 ， 浏 览 器 对 请 求 URI 的 解析 会 有 所 不 同 。 没 有 代理 时 ， 浏 览 器 会 获 
取 你 输入 的 URI， 尝 试 着 寻找 相应 的 IP 地 址 。 如 果 找 到 了 主机 名 ， 浏 览 器 会 尝试 相 
应 的 IP 地 址 直到 获得 成 功 的 连接 为 止 。 


但 是 ， 如 果 没 有 找到 主机 ， 很 多 浏览 器 都 会 尝试 着 提供 某 种 主机 名 自动 “扩展 ”机 
制 ， 以 防 用 户 输入 的 是 主机 “简短 ”的 缩写 形式 (回顾 一 下 2.3.2 58). 


。 很 多 训 览 器 会 尝试 着 加 入 前 绥 www. 和 后 级 .com， 以 防 用 户 只 输入 了 常见 Web 
站 点 名 的 中 间 部 分 (比如 ， 人 们 可 以 输入 yahoo 而 不 是 www.yahoo.com ) 。 

° 有 些 浏览 器 甚至 会 将 未 解析 出 来 的 URI 传递 给 第 三 方 站 点 ， 这 个 站 点 会 尝试 着 
校正 拼写 错误 ， 并 给 出 一 些 用 户 可 能 希望 访问 的 URI 建议 。 

° 而 且 ， 大 多 数 系统 中 的 DNS 配置 允许 用 户 只 输入 主机 名 的 前 级 ， 然 后 DNS &H 
动 搜索 域名 。 如 果 用 户 位 于 域名 oreilly.com 的 范围 之 内 ， 并 输入 了 主机 名 host7， 
DNS 会 自动 尝试 将 其 与 host7.oreilly.com 进行 匹配 。 这 并 不 是 完整 有 效 的 主机 名 。 





65.7 没有 代理 时 URI 的 解析 
图 6-16 显示 了 一 个 在 没有 代理 的 情况 下 ， 浏 览 器 进行 主机 名 自动 扩展 的 例子 。 在 第 
Qa) ~ Go) 步 中 ， 浏 览 器 会 去 查找 各 种 主机 名 ， 直 到 找到 一 个 有 效 主机 名 为 止 。 
















DNS 服务 器 
(1) 用 户 向 浏览 器 的 | i 
URI 地 址 窗口 输入 oreilly | : 











浏览 器 尝试 着 连接 到 一 个 个 IP 地 址 上 去 ， 直 到 成 功 建立 连接 为 止 
» | 

















» 








www.oreilly.com 








(3a) 浏览 器 进行 自动 扩展 ， 将 
oreilly 转 换 成 www.oreilly.com 


图 6-16 没有 提供 显 式 的 代理 时 ， 浏 览 器 会 对 部 分 主机 名 进行 自动 扩展 




















注 11: 当 你 输入 yahoo 时 ， 大 多 数 浏览 器 都 会 自动 将 其 扩展 为 www.yahoo.com。 类 似 地 ， 浏 览 器 允许 用 户 
省 略 前 绥 http:/， 如 果 省 略 了 浏览 器 会 自行 插入 。 
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图 中 发 生 的 情况 如 下 所 示 。 


° 在 第 (1) 步 中 ， 用 户 向 浏览 器 的 URI 窗口 中 输入 oreilly。 训 览 器 用 oreilly 作为 主 
机 和 名， 并 假定 默认 方案 为 http:/， 默 认 端 口 为 80， 默 认 路 径 为 “/”。 

° 在 第 Qa) 步 中 ， 浏 览 器 会 去 查找 主机 oreilly。 查 找 失败 了 。 

。 在 第 (Ga) 步 中 ， 浏 览 器 对 主机 名 进行 自动 扩展 ， 请 求 DNS 解析 www.oreilly. 
com。 这 次 成 功 了 。 

° 然后 ， 剖 览 器 成 功 地 连接 www.oreilly.com, 


6.5.8 有 显 式 代理 时 URI 的 解析 

使 用 显 式 代理 时 ， 用 户 的 URI 会 被 直接 发 送 给 代理 ， 所 以 浏览 器 就 不 再 执行 所 有 这 
些 便捷 的 扩展 功能 

如 图 6-17 所 示 ， 有 显 式 代理 时 ， 浏览 器 没有 对 不 完整 的 主机 名 进行 自动 扩展 。 因 
此 ， 当 用 户 在 浏览 器 的 地 址 窗口 中 输入 oreilly 时 ， 发 送 给 代理 的 就 是 http://oreilly/ 
(浏览 器 添加 了 默认 方案 和 路 径 ， 但 主机 名 和 输入 的 一 样 ) 。 








(4a) 中 发 送 的 请 求 报 文 





(2a) 已 经 显 式 地 配置 了 









































































代理 ， 所 以 浏览 器 会 用 DNS GET http CoreillyDHTTP/1.0 
去 搜索 代理 服务 器 的 地 址 _ Use agent: Moziila/4-72[en] (Win98:1) 
(2b) 成 功 | 获取 代 Apt EY 
理 服务 器 的 IP 地 址 Acchpt-encoding: gzip 
i Accept nagset: iso-8859-1,*,utf-8 
: DNS 服务 器 - REEL : 
(1) 用 户 在 浏览 器 的 i (4b) 客户 端 没 有 进行 自动 扩展 ， 所 以 代 
URI 地 址 窗口 输入 oreilly : 理 在 请 求 中 得 到 的 是 不 完整 主机 名 
=m B ，| ç Ga) 浏览 器 试图 连接 代理 











1 » 
d] s; 


(3a) 浏览 器 进行 自动 扩展 ， 
将 “oreilly” 转 换 成 www.oreilly.com 








www.oreilly.com 














6317 ”有 显 式 代理 时 ， 浏 览 器 不 会 对 不 完整 主机 名 进行 自动 扩展 


因此 ， 有 些 代理 会 尽力 尝试 着 去 模仿 浏览 器 的 便捷 服务 ， 包 括 www...com 自动 扩 
展 ， 以 及 添加 本 地 域名 后 级。 








= 





户 的 正确 域名 后 级 基本 上 是 不 可 能 的 。 





注 12: 但 对 得 到 广泛 共享 的 代理 来 说 ， 知 道 单个 月 
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6.5.9 有 拦截 代理 时 URI 的 解析 

使 用 不 可 见 的 拦截 代理 时 ， 对 主机 名 的 解析 会 略 有 不 同 ， 因 为 对 客户 端 来 说 ， 是 没 
有 代理 的 ! 这 种 情况 下 的 行为 与 使 用 服务 器 的 情形 很 类 似 ， 浏 览 器 会 自动 扩展 主机 
名 ， 直 到 DNS 成 功 为 止 。 但 如 图 6-18 所 示 ， 建 立 到 服务 器 的 连接 时 ， 有 一 个 很 重 
要 的 区 别 。 


























www.oreilly.com 














6-18 ”使 用 拦截 代理 时 ， 浏 览 器 无 法 检测 出 已 停 用 服务 器 的 IP 地址 
图 6-18 显示 了 下 列 事务 处 理 过 程 。 


。 在 第 (1) 步 中 ， 用 户 在 浏览 器 的 URI 地 址 窗口 中 输入 oreilly。 

。 在 第 Qa) 步 中 ,浏览 器 通过 DNS 查找 主机 oreilly, 但 DNS 服务 器 失败 了 ， 并 回 
送 响 应 说 明 主 机 未 知 ， 如 第 (2b) 步 所 示 。 

° 在 第 Qa) 步 中 ， 浏 览 器 进行 了 自动 扩展 ， 将 oreilly 转换 成 www.oreilly.com。 在 
第 (3b) 步 中 ， 浏 览 器 通过 DNS 来 查找 主机 www.oreilly.com。 这 一 次 ， 如 第 (3c) 
步 所 示 ，DNS 服务 器 成 功 了 ， 将 IP 地 址 返回 给 了 浏览 器 。 

° 在 第 (4a) 步 中 ， 客 户 端 已 经 成 功 解析 了 主机 名 ， 并 有 了 一 张 P 地 址 列表 。 有 些 
IP 地 址 可 能 已 经 停 用 了 ， 所 以 ， 通 常客 户 端 会 尝试 着 连接 每 个 IP 地 址 ， 直 到 成 
功 为 止 。 但 对 拦截 代理 来 说 ， 第 一 次 连接 请 求 就 会 被 代理 服务 器 拦截 成 功 ， 不 会 
连接 到 原始 服务 器 上 去 。 客 户 端 认 为 它 在 与 Web 服务 器 进行 成 功 的 对 话 ， 但 那 
个 Web 服务 器 可 能 甚至 都 不 处 于 活跃 状态 。 

。 当代 理 最 终 准 备 好 与 真正 的 原始 服务 器 进行 交互 时 [第 (50) 步 ] ， 代 理 可 能 会 发 
现 那 个 IP 地 址 实际 指向 的 是 一 个 已 停 用 的 服务 器 。 为 了 提供 与 浏览 器 相同 级 别 
的 容错 机 制 ， 代 理 可 以 通过 解析 Host 首部 的 主机 名 ， 也 可 以 通过 对 IP 地 址 的 反 
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向 DNS 查找 来 尝试 其 他 IP 地 址 。 将 浏览 器 配置 为 使 用 显 式 代理 时 ， 它 们 会 依赖 
代理 的 容错 机 制 ， 所 以 对 拦截 和 显 式 的 代理 实现 来 说 ， 在 DNS 解析 到 已 停 用 服 
务 器 上 时， 提供 容错 机 制 是 很 重要 的 。 


6.6 ERRI 


现在 ， 在 将 Web 请 求 从 客户 端 传送 到 服务 器 的 路 径 过 两 个 或 多 个 代理 是 很 
常见 的 (参见 图 6-19) 。 ee ge er 
代理 服务 器 来 访问 因特网 ,而 且 很 多 大 型 ISP 都 会 使 用 代理 缓存 来 提高 性 能 并 实现 
各 种 特性 。 现 在 ， 有 相当 比例 的 Web 请 求 都 是 通过 代理 转发 的 。 同 时 ， 出 于 性 能 原 
因 ， 把 内 容 复 制 到 遍布 全 球 的 灰 代 物 缓存 库 中 的 情形 也 越 来 越 常见 
































Pila ISPR Web 服 务 器 











6-19 访问 代理 和 CDN 代理 构建 了 一 个 两 级 代理 层次 结构 

代理 是 由 不 同 三 商 开 发 的 。 它 们 有 不 同 的 特性 和 缺陷 ， 由 各 种 不 同 的 组 织 负责 管理 。 
随 着 代理 的 逐渐 流行 ， 我们 要 能 够 追踪 经 过 代理 的 报 文 流 ， 以 检测 出 各 种 问题 ， 其 
重要 性 就 跟 追 踪 经 过 不 同 交 换 机 和 路 由 器 传输 的 IP 分 组 流 一 样 。 


6.6.1 Via 首 部 


Via 首部 字段 列 出 了 与 报 文 途经 的 每 个 中 间 节 点 (代理 或 网 关 ) 有 关 的 信息 。 报 文 
每 经 过 一 个 节点 ， 都 必须 将 这 个 中 间 市 点 添加 到 Via 列表 的 末尾 。 


下 面 的 via 字符 串 告诉 我 们 报 文 流 经 了 两 个 代理 。 这 个 字符 串 说 明 第 一 个 代理 名 
为 proxy-62.irenes-isp.net， 它 实现 了 HTTP/1.1 pe 第 二 个 代理 被 称 为 
cache.joes-hardware.com， 实 现 了 HTTP/1.0: 








158 | 第 6 章 


Via: 1.1 proxy-62.irenes-isp.net, 1.0 cache.joes-hardware.com 


Via 首 部 字段 用 于 记录 报 文 的 转发 ， 诊 断 报 文 循 环 ， 标 识 请 求 /响应 链 上 所 有 发 送 
者 的 协议 能 力 (参见 图 6-20). 





代理 也 可 以 用 via 首部 来 检测 网 络 中 的 路 由 循环 。 代 理应 该 在 发 送 一 条 请 求 之 前 ， 
E via 首部 插入 一 个 与 其 自身 有 关 的 独特 字符 串 ， 并 在 输入 的 请 求 中 查找 这 个 字符 
串 ， 以 检测 网 络 中 是 否 存 在 路 由 循环 。 





请 求 报 文 (和 服务 器 收 到 的 一 样 ) 


GET /index.html HTTP/1.0 

Accept: text/html 

Host: www.joes-hardware.com 

Via: 1.1 proxy-62.irenes-isp.net, 1.0 cache.joes-hardware.com 


SN = Se 有 
Li proxy-62.irenes-isp.net cache.joes-hardware.com 


客户 端 (HTTP/1.1) (HTTP/1.0) www.joes-hardwar e.com 
























6-20 via 首部 实例 


1. Via 的 语法 

via 首部 字段 包含 一 个 由 逗号 分 隔 的 路 标 (waypoint) 。 每 个 路 标 都 表示 一 个 独立 的 
代理 服务 器 或 网 关 ， 且 包含 与 那个 中 间 节 点 的 协议 和 地 址 有 关 的 信息 。 下 面 是 一 个 
带 有 两 个 路 标的 via 首部 实例 : 


à 





Via - 1.1 cache.joes-hardware.com, 1.1 proxy.irenes-isp.net 
via 首部 的 正规 语法 如 下 所 示 : 


Via 

waypoint 
received-protocol 
received-by 


"Via" ":" 1#( waypoint ) 

( received-protocol received-by [ comment ] ) 
[ protocol-name "/" ] protocol-version 

( host [ ":" port ] ) | pseudonym 


注意 ， 每 个 Via 路 标 中 最 多 包含 4 个 组 件 : 一 个 可 选 的 协议 名 〈 默 认为 HTTP), — 
个 必 选 的 协议 版 本 、 一 个 必 选 的 节点 名 和 一 个 可 选 的 描述 性 注释 。 


。 协议 名 
中 间 节 点 收 到 的 协议 。 如 果 协 议 为 HTTP 的 话 ， 协 议 名 就 是 可 选 的 。 否 则 ， 要 
在 版 本 之 前 加 上 协议 名 ， 中 间 用 “/” 分 隔 。 网 关 将 HTTP 请 求 连 接 到 其 他 协议 
(HTTPS. FTP 等 ) 时 ， 可 能 会 使 用 非 HTTP 协议 。 
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。 协议 版 本 
所 收 到 的 报 文 版 本 。 版 本 的 格式 与 协议 有 关 。HTTP 使 用 的 是 标准 版 本 号 〈1.0、 
1.1 等 )。 版 本 包含 在 Via 字段 中 ， 这 样 ， 之 后 的 应 用 程序 就 会 知道 前 面 所 有 中 
间 节 点 的 协议 能 力 了 。 


。 节点 名 
中 间 市 点 的 主机 和 可 选 端口 号 (如 果 没 有 包含 端口 号 ， 可 以 假定 使 用 的 是 协议 的 
默认 端口 号 )。 在 某 些 情况 下 ， 出 于 隐私 方面 的 考虑 ， 某 个 组 织 可 能 不 愿意 给 
真实 的 主机 名 ， 在 这 种 情况 下 可 以 用 一 个 假名 来 代 禁 。 





。 节点 注释 
进一步 描述 这 个 中 间 节 点 的 可 选 注释 。 通 常会 在 这 里 包含 厂商 和 版 本 信息 ， 有 些 
代理 服务 器 还 会 在 注释 字段 中 包含 一 些 与 此 设备 上 所 发 生 事件 有 关 的 诊断 信息 。” 

















2. Via 的 请 求 和 响应 路 径 

请 求 和 响应 报 文 都 会 经 过 代理 进行 传输 ， 因 此 ， 请 求 和 响应 报 文中 都 要 有 via 
首部 。 

请 求 和 响应 通常 都 是 通过 同一 条 TCP 连接 传送 的 ， 所 以 响应 报 文 会 沿 着 与 请 求 报 文 
相同 的 路 径 回 传 。 如 果 一 条 请 求 报 文 经 过 了 代理 A、B 和 C， 相 应 的 响应 报 文 就 会 
通过 代理 C、B、A 进行 传输 。 因 此 ， 响 应 的 via 首部 基本 上 总 是 与 请 求 的 via Ë 
部 相反 (参见 图 6-21)。 














请 求 Via 首 部 
via: l.1 A,1.1B,1.1C 





响应 Via 首 言 
via: 1.1 C,1.1 B,1.1 A 











6-21 响应 Via 通常 与 请 求 via 相反 





注 13: 比如 ， 缓 存 代 理 服务 器 中 可 能 会 包含 一 些 成 功 / 失败 信息 。 
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3. Via 与 网 关 

有 些 代理 会 为 使 用 非 HTTP 协议 的 服务 器 提供 网 关 的 功能 。via 首部 记录 了 这 些 协 
议 转换 ， 这 样 ，HTTP 应 用 程序 就 会 了 解 代 理 链 上 各 点 的 协议 处 理 能 力 以 及 所 做 的 
协议 转换 了 。 图 6-22 显示 了 一 个 通过 HTTP/FTP 网 关 请 求 某 个 FTP URI 的 HTTP 
客户 端 。 























客户 端 向 网 关 proxy.irenes-isp.net 发 送 了 一 条 对 ftp://http-guide.com/pub/welcome.tst 
的 HTTP 请求。 作为 协议 网 关 使 用 的 代理 会 用 FTP 协议 从 FTP 服务 器 获取 预期 的 对 
象 。 然 后 代理 会 用 下 面 这 个 via 首部 字段 ， 在 一 条 HTTP 响应 中 将 对 象 回 送 到 客户 
端 上 去 : 





Via: FTP/1.0 proxy.irenes-isp.net (Traffic-Server/5.0.1-17882 [cMs f ]) 


注意 ， 接 收 到 的 协议 是 FTP。 可 选 注释 中 包含 有 代理 服务 器 的 品牌 和 版 本 号 ， 以 及 
一 些 厂商 的 诊断 信息 。 在 第 8 章 可 以 读 到 所 有 与 网 关 有 关 的 内 容 。 








发 送 给 代理 的 HTTP 请 求 报 文 














GET ftp://http-guide.com/pub/welcome.txt HTTP/1.0 | 


L M c B 
proxy.irenes-isp.net 





d rus (HTTP/1.0) ETENN m 
A i http-guide.com 
i | FTP 服 务 器 
HITP 响 应 报 文 





HTTP/1.0 200 OK 

Date: Sun, 11 Nov 2001 21:01:59 GMT 

Via: FTP/1.0 proxy; irenes-isp.net Gramm Server/5.0.1-17882 [cMsf]) 
Last-modified: Sun, 11 Nov 2001 21:05:24 GMT 

Content-type: text/plain 


Hi there. This is an FTP server. 




















6-22 HTTP/FTP 网 关 生成 了 via 首部 ， 用 于 记录 所 收 到 的 协议 (FTP) 


4. Server 和 via 首部 
Server 响应 首部 字段 对 原始 服务 器 使 用 的 软件 进行 了 描述 。 这 里 有 几 个 例子 


Server: Apache/1.3.14 (Unix) PHP/4.0.4 
Server: Netscape-Enterprise/4.1 
Server: Microsoft-IIS/5.0 
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如 果 响 应 报 文 是 通过 代理 转发 的 ， 一 定 要 确保 代理 没有 修改 Server 首部 。Server 
首部 是 用 于 原始 服务 器 的 。 代 理应 该 添加 的 是 via 条 目 。 


5. via 的 隐私 和 安全 问题 

有 上 时候， 我 们 并 不 希望 在 via 字符 串 中 使 用 确切 的 主机 名 。 总 地 来 说 ， 除 非 显 式 地 
人 允许 了 这 种 行为 ， 否 则 ， 当 代理 服务 器 作为 网 络 防火 墙 的 一 部 分 使 用 时 ， 是 不 应 该 
转发 防火 墙 后 面 那些 主机 的 名 字 和 端口 号 的 ， 因 为 防火 墙 后 面 的 网 络 结构 信息 可 能 
会 被 恶意 群体 利用 。” 


如 果 不 允 许 进行 Via 节点 名 转发 ， 作 为 安全 防线 的 一 部 分 使 用 的 代理 就 应 该 用 适当 
的 假名 来 取代 那 台 主 机 的 名 字 。 一 般 来 说 ， 即 使 隐藏 了 真实 名 称 ， 代 理 也 应 该 尝试 
着 为 每 台 代 理 服 务 器 保留 一 个 Via 路 标 条 目 。 


对 那些 有 着 非常 强烈 的 隐私 要 求 ， 需 要 隐藏 内 部 网 络 设计 和 拓扑 结构 的 组 织 来 说 ， 
代理 应 该 将 一 个 《接收 协议 值 相同 的 ) 有 序 via 路 标 条 目 序 列 合并 成 一 个 联合 条 
目 。 比 如 ， 可 以 将 : 











Via: 1.0 foo, 1.1 devirus.company.com, 1.1 access-logger.company.com 
压缩 成 
Via: 1.0 foo, 1.1 concealed-stuff 


除非 这 些 条 目 都 在 同一 个 组 织 的 控制 之 下 ， 而 且 已 经 用 假名 取代 了 主机 名 ， 否 则 就 
能 将 其 合并 起 来 。 同 样 ， 接 收 协议 值 不 同 的 条 目 也 不 能 合并 起 来 。 


^H àJ 





> 


6.6.2 ”TRACE 方法 

代理 服务 器 可 以 在 转发 报 文 时 对 其 进行 修改 。 可 以 添加 、 修 改 或 删除 首部 ， 也 可 以 将 
主体 部 分 转换 成 不 同 的 格式 。 代 理 变 得 越 来 越 复 杂 ， 开 发 代理 产品 的 厂商 也 越 来 越 多 ， 
互 操作 性 问题 也 开始 逐渐 显现 。 为 了 便于 对 代理 网 络 进行 诊断 ， 我 们 需要 有 一 种 便捷 
的 方式 来 观察 在 通过 HTTP 代理 网 络 逐 跳 转 发 报 文 的 过 程 中 ， 报 文 是 怎样 变化 的 。 

通过 HTTP/1.1 的 TRACE 方法 ， 用 户 可 以 跟踪 经 代理 链 传输 的 请 求 报 文 ， 观 察 报 文 
经 过 了 哪些 代理 ， 以 及 每 个 代理 是 如 何 对 请 求 报 文 进行 修改 的 。TRACE 对 代理 流 
的 调试 非常 有 用 。” 






































恶意 用 户 可 以 通过 计算 机 名 字 和 版 本 号 来 了 解 安全 防线 之 后 的 网 络 结构 。 这 类 信息 可 能 有 助 于 进行 
全 攻击 。 而 且 ， 计 算 机 名 还 可 能 泄露 一 个 组 织 内 部 私有 项 目的 线索 。 
注 15: 但 是 ， 它 还 没有 得 到 广泛 的 实现 。 








当 TRACE 请 求 到 达 目 的 服务 器 时 , “ 整 条 请 求 报 文 都 会 被 封装 在 一 条 HTTP 响应 


的 主体 中 回 送 给 发 送 端 〈 参 见 





图 6-23) 。 当 TRACE 响应 到 达 时 ， 客 户 端 可 以 检查 


服务 器 收 到 的 确切 报 文 ， 以 及 它 所 经 过 的 代理 列表 (Z(E via 首部 )。TRACE 响应 的 
Content-Type 为 message/http， 状 态 为 200 OK, 





TRACE 请 求 


TRACE /index.html HTTP/1.1 
Host: www.joes-hardware.com 
Accept: text/html 


B 


客户 并 feu 














HTTP/1.1 200 OK 
Content-Type: message/http 
Content-Length: 269 


Via: 1.1 cache.joes-hardware.com, 1.1 p1127.att.net, 1.1 proxy.irenes-isp.net 





服务 器 


(proxy.irenes-isp.net) (pl 127 att.net) (cache.j Des hardware:cony (www.joes-hardware.com) 





TRACE /index.html HTTP/1.1 
Host: www.joes-hardware.com 
Accept: text/html 
X-Magic-CDN-Thingy: 134-AF-0003 


Client-ip: 209.134.49.32 








Via: 1.1 prox .irenes-isp.net, 1.1 p1127.att.net, 1.1 cache.joes-hardware.com 


Cookie: access-isp="Irene's ISP, California" 


E 收 到 的 请 求 














TRACE 响应 











6-23 TRACE 响应 回 送 了 收 到 的 请 求 报 文 


Max-Forwards 


通常 ， 不 管 中 间 插入 了 多 少 代 理 ，TRACE 报 文 都 会 沿 着 整 条 路 径 传 到 目的 服务 器 


上 上。 可 以 使 用 Max-Forwards 


(最 大 转发 次 数 ) 首部 来 限制 TRACE 和 OPTIONS 














请 求 所 经 过 的 代理 跳 数 ， 在 测试 代理 链 是 否 是 在 无 限 循 环 中 转发 报 文 ， 或 者 查看 链 
中 特定 代理 服务 器 的 效果 时 ， 它 是 很 有 用 的 。Max-Forwards 也 可 以 限制 OPTIONS 


报 文 的 转发 (参见 6.8 市 )。 














Max-Forwards 请 求 首部 字段 包含 了 一 个 整数 ， 用 来 说 明 这 条 请 求 报 文 还 可 以 被 转 
发 的 次 数 (参见 图 6-24)。 如 果 Max-Forwards 的 值 为 零 (Max-Forwards:0)， 那 
么 即使 接收 者 不 是 原始 服务 器 ， 它 也 必须 将 TRACE 报 文 回 送 给 客户 端 ， 而 不 应 该 











网 关 。 


注 16: 最 后 的 接收 者 可 以 是 原始 服务 器 ， 也 可 以 是 第 一 个 收 到 了 Max-Forwards 值 为 零 的 请 求 的 代理 或 
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如 果 收 到 的 Max-Forwards 值 大 于 零 ， 转 发 的 报 文中 就 必须 包含 一 个 更 新 了 
的 Max-Forwards 字段 ， 其 值 会 被 减 一 。 所 有 的 代理 和 网 关 都 应 该 支持 Max- 
Forwards。 可 以 用 Max-Forwards 来 查看 在 代理 链 的 任意 一 跳 上 接收 到 的 请 求 。 








TRACE 请 求 


TRACE /index.html HTTP/1.1 
Host: www. joes- hardware.com Max-Forwards=1 Max-Forwards=0 


Accept: text/html 


Li > xo 


4m n. Hi 服务 器 


代理 2 
(proxy.i reny isp.net) (p1127. ag net) (cache.joes- hardware, com) (www.joes-hardware.com) 























HTTP/1.1 200 OK 

Content-Type: Der aded 

Content-Length 

Via: 1.1 p1127. et net, 1.1 proxy.irenes-isp.net 


上 一 yE 
TRACE /index.html HTTP/1.1 Va 收 到 的 请 求 
Host: www.joes-hardware.com 
Accept: text/html 
Via: 1.1 proxy. .irenes-isp.net, 1.1 p1127.att.net 
X- Magic- -CDN-Thingy: 134-AF- -0003 
Cookie: access-isp-"Irene's ISP, California" 
Client-ip: 209.134.49.32 




















TRACE 响应 











6-24 可 以 用 Max-Forwards 首部 字段 来 限制 转发 跳 数 


67 ”代理 认证 


代理 可 以 作为 访问 控制 设备 使 用 。HTTP 定义 了 一 种 名 为 代理 认证 (proxy 
authentication). 的 机 制 ， 这 种 机 制 可 以 阻止 对 内 容 的 请 求 ， 直 到 用 户 向 代理 提供 了 
有 效 的 访问 权限 证 书 为 止 。 


。 对 受 限 内 容 的 请 求 到 达 一 台 代 理 服 务 器 时 ， 代 理 服务 器 可 以 返回 一 个 要 求 使 用 访 
问 证 书 的 407 Proxy Authorization Required 状态 码 ， 以 及 一 个 用 于 描述 怎样 提供 
这 些 证 书 的 Proxy-Authenticate 首部 字段 (参见 图 6-25b)。 

















156) 。 客户 端 收 到 407 响应 时 ， 会 尝试 着 从 本 地 数据 库 中 ,或 者 通过 提示 用 户 来 搜集 所 























需要 的 证 书 。 

° 只 要 获得 了 证 书 ， 客 户 端 就 会 重新 发 送 请 求 ， 在 Proxy-Authorization 首部 
字段 中 提供 所 要 求 的 证 书 。 

° 如 果 证 书 有 效 ,代理 就 会 将 原始 请 求 沿 着 传输 链 路 向 下 传送 (参见 图 6-25c) ;否则 , 
就 发 送 另 一 条 407 应 答 








若 传输 链 路 中 有 多 个 代理 ， 且 每 个 代理 都 要 进行 认证 时 ， 代 理 认 证 通常 无 法 很 好 地 
工作 。 人 们 建议 ， 应 该 对 HTTP 进行 升级 ， 将 认证 证 书 与 代理 链 中 特定 的 路 标 联系 


起 来 ， 但 这 些 升级 措施 并 没有 得 到 广泛 实现 。 
AX HTTP 认证 机 制 的 详细 解释 请 参见 第 12 章 。 








(a) GET http://server.com/secret.jpg HTTP/1.0 











访问 控制 代理 服务 器 








HTTP/1.0 407 Proxy Authorization Required 
Proxy-Authenticate: Basic realm-"Secure Stuff" 














GET i Mcr Ee sya ss HTTP/1.0 
Proxy-Authorization: Basic YnJpOmZvbw-- 











HTTP/1.0 200 OK 
Content-type: image/jpe 
...«image data included... 














访问 控制 代理 服务 器 














图 6-25 代理 可 以 实现 认证 机 制 以 控制 对 内 容 的 访问 


68 ”代理 的 互 操作 性 


客户 端 、 服 务 器 和 代理 是 由 不 同 厂商 构建 的 ， 实 现 的 是 不 同 版 本 的 HTTP 规范 。 


Ë 


们 支持 的 特性 各 不 相同 ， 也 存在 着 不 同 的 问题 。 代 理 服 务 器 位 于 客户 端 和 服务 器 设 


备 之 间 ， 这 些 设备 实现 的 协议 可 能 有 所 不 同 ， 可 能 存在 着 很 环 手 的 问题 。 
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6.8.1 处 理 代 理 不 支持 的 首部 和 方法 

代理 服务 器 可 能 无 法 理解 所 有 经 其 传输 的 首部 字段 。 有 些 首 部 可 能 比 代理 自身 还 要 
新 ， 其 他 首部 可 能 是 特定 应 用 程序 独 有 的 定制 首部 。 代 理 必须 对 不 认识 的 首部 字段 
进行 转发 ， 而 且 必须 维持 同名 首部 字段 的 相对 顺序 。" 类 似 地 ， 如 果 代 理 不 熟悉 革 
个 方法 ， 那 么 只 要 可 能 ， 就 应 该 尝试 着 将 报 文 转发 到 下 一 跳 节 点 上 去 。 


在 当今 的 大 部 分 网 络 中 ， 如 果 代 理 不 能 转发 它 不 支持 的 方法 ， 可 能 就 无 法 生存 下 去 
了 ， 因 为 通过 微软 的 Outlook 进行 Hotmail 访问 就 大 量 地 使 用 了 HTTP 扩展 方法 。 











6.8.2 OPTIONS: 发 现 对 可 选 特 性 的 支持 

通过 HTTP OPTIONS 方法 ， 客 户 端 (或 代理 ) 可 以 发 现 Web 服务 器 或 者 其 上 革 
个 特定 资源 所 支持 的 功能 (比如 ， 它 们 所 支持 的 方法 ) (参见 图 6-26)。 通 过 使 用 
OPTIONS ， 客 户 端 可 以 在 与 服务 器 进行 交互 之 前 ， 确 定 服 务 器 的 能 力 ， 这 样 它 就 可 
以 更 方便 地 与 具备 不 同 特性 的 代理 和 服务 器 进行 互 操作 了 。 








OPTIONS * HTTP/1.1 


- E 


服务 器 














HTTP/1.1 200 OK 
Allow: GET,PUT,POST,HEAD, TRACE , OPTIONS 




















6-26 用 OPTIONS 来 判定 服务 器 支持 的 方法 


如 果 OPTIONS 请 求 的 URI 是 个 星 号 (*)， 请 求 的 就 是 整个 服务 器 所 支持 的 功能 。 
比如 : 


OPTIONS * HTTP/1.1 


如 果 URI 是 个 实际 资源 地 址 ，OPTIONS 请 求 就 是 在 查询 那个 特定 资源 的 可 用 特性 : 





OPTIONS http://www.joes-hardware.com/index.html HTTP/1.1 




















ik 17: 报 文中 可 能 会 出 现 多 个 报 文 首部 字段 具有 相同 字段 名 的 情况 ， 如 果 存 在 这 种 情况 的 话 ， 就 要 将 其 等 
价 地 合并 为 一 个 由 逗号 分 隔 的 列表 。 因 此 ， 要 对 合并 后 的 字段 值 进 行 解释 ， 有 具有 相同 字段 名 的 首部 
字段 的 接收 顺序 就 变 得 非常 重要 了 ， 因 此 ， 代 理 在 转发 报 文 时 ， 就 不 能 修改 这 些 同 名 字段 值 的 相对 
顺序 。 



































如 果 成 功 ，OPTIONS 方法 就 会 返回 一 个 包含 了 各 种 首部 字段 的 200 OK 响应 ， 这 些 
字段 描述 了 服务 器 所 支持 的 ， 或 资源 可 用 的 各 种 可 选 特性 。HTTP/1.1 在 响应 中 唯一 
指定 的 首部 字段 是 Allow 首部 ， 这 个 首部 用 于 描述 服务 器 所 支持 的 各 种 方法 (或 者 
服务 器 上 的 特定 资源 )。”"OPTIONS 允许 在 可 选 的 响应 主体 中 包含 更 多 的 信息 ， 但 
并 没有 对 这 种 用 法 进行 定义 。 


6.8.3 Allow 首 部 
Allow 实体 首部 字段 列 出 了 请 求 URI 标识 的 资源 所 支持 的 方法 列表 ， 如 果 请 求 URI 
为 * 的 话 ， 列 出 的 就 是 整个 服务 器 所 支持 的 方法 列表 。 例 如 : 


Allow: GET, HEAD, PUT 


可 以 将 allow 首部 作为 请 求 首 部 ， 建 议 在 新 的 资源 上 支持 某 些 方法 。 并 不 要 求 服务 
器 支持 这 些 方法 ， 但 应 该 在 相应 的 响应 中 包含 一 个 Allow 首部 ， 列 出 它 实 际 支持 的 
方法 。 

因为 客户 端 可 能 已 经 通过 其 他 途径 与 原始 服务 器 进行 了 交流 ， 所 以 即使 代理 无 法 理 
解 指定 的 所 有 方法 ， 也 不 btt abb dd 


6.9 更 多 信息 
更 多 信息 ， 请 参见 以 下 资源 。 


° http://www.w3.org/Protocols/rfc2616/rfc2616.txt 
RFC 2616, R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Mastinter, P. Leach 
F0 T. Berners-Lee 编写 的 “Hypertext Transfer Protocol" , 








° http://www.ietf.org/rfc/rfc3040.txt 
RFC 3040, "Internet Web Replication and Caching Taxonomy” (“KFW Web 复 
制 和 缓存 分 类 ” ) 。 


° Web Proxy Servers 
Ari Luotonen #, Prentice Hall 出 版 的 计算 机 图 书 。 


° http://www.ietf.org/rfc/rfc3143.txt 
RFC 3143, “Known HTTP Proxy/Caching Problems" (^E AH HTTP 代理 /缓存 
问题 ”)。 





注 18: 并 不 是 所 有 资源 都 支持 每 种 方法 的 。 比 如 ，CGI 脚本 查询 可 能 就 不 支持 文件 PUT， 而 静态 的 HTML 
文件 则 不 接受 POST 方法 。 
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° Web Caching ((Web RE) °) 


Duane Wessels #, O'Reilly & Associates 公司 出 版 。 





ik 19: 影印 版 由 清华 大 学 出 版 社 出 版 。( 编 者 注 























— 
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Web 缓存 是 可 以 自动 保存 常见 文档 副本 的 HTTP 设备。 当 Web 请 求 抵达 缓存 时 ， 
如 果 本 地 有 “已 缓存 的 ”副本 ， 就 可 以 从 本 地 存储 设备 而 不 是 原始 服务 器 中 提取 这 
个 文档 。 使 用 缓存 有 下 列 优点 。 


。 缓存 减少 了 兄 余 的 数据 传输 ， 节 省 了 你 的 网 络 费 用 。 

° 缓存 缕 解 了 网 络 辣 颈 的 问题 。 不 需要 更 多 的 带宽 就 能 够 更 快 地 加 载 页面 。 

° 缓存 降低 了 对 原始 服务 器 的 要 求 。 服 务 器 可 以 更 快 地 响应 ， 避 免 过 载 的 出 现 。 
。 缓存 降低 了 距离 时 臣 ， 因 为 从 较 远 的 地 方 加 载 页 面 会 更 慢 一 些 。 


本 章 解 释 了 缓存 是 怎样 提高 性 能 降低 费用 的 、 如 何 去 衡 量 其 有 效 性 以 及 将 缓存 置 于 
何 处 可 以 发 挥 它 的 最 大 作用 。 我 们 还 会 解释 HTTP 如 何 保持 已 缓存 副本 的 新 鲜 度 ， 
缓存 如 何 与 其 他 缓存 和 服务 器 通信 等 问题 。 


7.4. 郊 余 的 数据 传输 


有 很 多 客户 端 访问 一 个 流行 的 原始 服务 器 页 面 时 ， 服 务 器 会 多 次 传输 同一 份 文档 ， 
每 次 传送 给 一 个 客户 端 。 一 些 相 同 的 字 市 会 在 网 络 中 一 遍 遍 地 传输 。 这 些 见 余 的 数 
据 传输 会 耗 尽 帅 贵 的 网 络 带宽 ， 降 低 传输 速度 ， 加 重 Web 服务 器 的 负载 。 有 了 组 
存 ， 就 可 以 保留 第 一 条 服务 器 响应 的 副本 ， 后 继 请 求 就 可 以 由 缓存 的 副本 来 应 对 了 ， 
这 样 可 以 减少 那些 流入 / 流出 原始 服务 器 的 、 被 浪费 掉 了 的 重复 流量 。 


7.2 T SEHE 


缓存 还 可 以 缓解 网 络 的 瓶颈 问题 。 很 多 网 络 为 本 地 网 络 客户 端 提 供 的 带宽 比 为 远程 
服务 器 提供 的 带宽 要 宽 (参见 图 7-1)。 客 户 端 会 以 路 径 上 最 慢 的 网 速 访问 服务 器 。 
如 果 客 户 端 从 一 个 快速 局 域 网 的 缓存 中 得 到 了 一 份 副 本 ， 那 么 缓存 就 可 以 提高 性 
能 一 一 尤其 是 要 传输 比较 大 的 文件 时 。 


在 图 7-1 中 ，Joe 的 五 金 商店 旧金山 分 店 的 用 户 通过 1.4Mbits 的 Tl 因特网 连接 ， 从 亚 
特 兰 大 总 店 下 载 一 个 SMB 的 库存 文件 要 花 30 秒 的 时 间 。 如 果 在 旧金山 分 店 里 缓存 了 这 
个 文档 ， 本 地 用 户 通 过 以 大 网 连接 只 要 花费 不 到 1 秒 的 时 间 就 可 以 获得 同一 份 文档 了 。 


K 7-1 说 明了 在 几 种 不 同 的 网 速 下 ， 传 输 几 种 不 同 大 小 的 文档 时 ， 带 宽 会 对 传输 速 
度 产生 什么 样 的 影响 。 带 宽 会 给 较 大 的 文档 带 来 显而易见 的 时 延 ， 不 同类 型 网 络 的 
速度 差异 会 非常 明显 。! 一 个 54kbit/s 的 Modem 传输 一 个 5MB 的 文件 需要 749 fh 
(超过 12 分 钟 ) ， 而 在 快速 以 大 网 LAN 中 ， 只 要 不 到 一 秒 的 时 间 。 






































注 1: 这 张 表 只 列 出 了 网 络 带 宽 对 传输 时 间 的 影响 。 它 假定 网 络 效率 为 100%， 而 且 不 存在 网 络 或 应 用 程序 
的 处 理 时 延 。 通 过 这 种 方式 给 出 的 时 延 是 下 限 值 。 实 际 的 时 延 要 大 一 些 ， 而 小 型 对 象 的 时 延 则 主要 是 
由 非 带宽 开销 造成 的 。 
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旧金山 分 店 办 公 室 





到 服务 器 的 慢 速 WAN 
连接 (1.4Mbit/s 的 T1) 


PIT M 缓存 
到 缓存 的 快速 连接 
(100Mbit/s 以 太 网 ) 









































亚特兰大 总 店 
ENENM E 
服务 器 
图 7-1 缓存 可 以 改善 由 有 限 广 域 带宽 造成 的 网 络 瓶颈 
表 7-1 带宽 造成 的 传输 时 延 ， 理 想 化 情况 (以 秒 为 时 间 单 位 ) 
大 型 HTML JPEG 大 型 JPEG 大 型 文件 
( 15KB ) ( 40KB ) ( 150KB ) ( 5MB) 
Ji modem (56kbit/s) 2.19 5.85 21.94 748.98 
DSL (256Kbit/s) 0.48 1.28 4.80 163.84 
T1 (L.4Mbit/s) 0.09 0.23 0.85 29.13 
慢 速 以 大 网 (10Mbit/s) 0.01 0.03 0.12 4.19 
DS3 (45Mbit/s) 0.00 0.01 0.03 0.93 
快速 以 太 网 (100Mbits ) 0.00 0.00 0.01 0.42 








7.3 瞬间 拥塞 


缓存 在 破坏 瞬间 拥塞 (Flash Crowds) 时 显得 非常 重要 。 突 发 事件 (比如 爆炸 性 新 
闻 、 批 量 E-mail 公告 ， 或 者 某 个 名 人 事件 ) 使 很 多 人 几乎 同时 去 访问 一 个 Web X 
档 时 ， 就 会 出 现 瞬 间 拥 塞 (参见 图 7-2)。 由 此 造成 的 过 多 流量 峰值 可 能 会 使 网 络 和 
Web 服务 器 产生 灾难 性 的 崩溃 。 


1998 年 9 月 11 日， 详细 描述 Kenneth Starr 对 美国 总 统 克 林 顿 调查 情况 的 “Starr 报 
告 ”发 布 到 因特网 上 去 的 时 候 ， 美 国 众议院 的 Web 服务 器 每 小 时 收 到 了 超过 三 百 万 
次 的 请 求 ， 是 其 平均 服务 器 负荷 的 50 倍 。 据 报道 ， 新 闻 站 点 CNN.com 的 服务 器 每 
秒 钟 平均 会 收 到 超过 50 000 次 的 请 求 。 
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芝加哥 


波士顿 


洛杉矶 瞬间 拥塞 
亚 


YL 























7-2 瞬间 拥塞 会 使 Web 服务 器 过 载 


7.4 距离 时 延 


即使 带宽 不 是 问题 ， 距 离 也 可 能 成 为 问题 。 每 台 网 络 路 由 器 都 会 增加 因特网 流量 的 
时 延 。 即 使 客户 端 和 服务 器 之 间 没 有 太 多 的 路 由 器 ， 光 速 自身 也 会 造成 显著 的 时 延 。 


波士顿 到 旧金山 的 直线 距离 大 约 有 2700 英里 。 在 最 好 的 情况 下 ， 以 光速 传输 
(186 000 英里 / 秒 ) 的 信号 可 以 在 大 约 15 毫秒 内 从 波士顿 传送 到 旧金山 ， 并 在 30 


毫秒 内 完成 一 个 往返 。 ° 


假设 某 个 Web 页 面 中 包含 了 20 个 小 图 片 ， 都 在 旧金山 的 一 台 服 务 器 上 。 如 果 波 士 

顿 的 一 个 客户 端 打 开 了 4 条 到 服务 器 的 并 行 连接 ， 而 且 保持 着 连接 的 活跃 状态 ， 光 

速 自身 就 要 耗费 大 约 1/4 秒 (240 毫秒 ) 的 下 载 时 间 (参见 图 7-3)。 如 果 服 务 器 位 

于 (距离 旧金山 6700 英里 的 ) 东京 ， 时 延 就 会 变 成 600 上 毫秒。 中 等 复杂 的 Web 页 
会 带 来 几 秒 钟 的 光速 时 延 。 


将 缓存 放 在 附近 的 机 房 里 可 以 将 文件 传输 距离 从 数 千 英 里 缩短 为 数 十 米 。 





























注 2: 在 实际 应 用 中 ,信号 的 传输 速度 会 比 光速 低 一 些 ， 因 此 ， 距 离 时 延 会 更 加 严重 。 
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图 7-3 ”即便 使 用 的 是 并 行 的 持久 连接 ， 光 速 也 会 造成 显著 的 时 延 


7.5 命中 和 未 命中 的 
这 样 看 来 缓存 是 有 所 帮助 的 。 但 缓存 无 法 保存 世界 上 每 份 文档 的 副本 。， 


可 以 用 已 有 的 副本 为 某 些 到 达 缓 存 的 请 求 提供 服务 。 这 被 称 为 缕 存 命中 (cache 
hit), ZILK 7-4a。 其 他 一 些 到 达 缓 存 的 请 求 可 能 会 由 于 没有 副本 可 用 ， 而 被 转发 
给 原始 服务 器 。 这 被 称 为 缓存 未 命中 (cache miss) ， 参 见 图 7-4b。 


7.5.4 再 验证 

原始 服务 器 的 内 容 可 能 会 发 生变 化 ， 缓 存 要 不 时 对 其 进行 检测 ， 看 看 它们 保存 的 
副本 是 否 仍 是 服务 器 上 最 新 的 副本 。 这 些 “ 新 鲜 度 检测 ”被 称 为 HTTP 再 验证 
(revalidation) (参见 图 7-4c) 。 为 了 有 效 地 进行 再 验证 ，HTTP 定义 了 一 些 特殊 的 请 
求 ， 不 用 从 服务 器 上 获取 整个 对 象 ， 就 可 以 快速 检测 出 内 容 是 否 是 最 新 的 。 














注 3: 几乎 没 人 能 够 买 得 起 一 个 大 得 足以 装 下 Web 上 所 有 文档 的 缓存 。 即 便 可 以 买 得 起 巨大 的 “整个 Web 
的 缓存 "， 有 些 文档 也 经 常会 发 生变 化 ， 很 多 缓存 中 的 内 容 都 不 是 最 新 的 。 这 样 的 话 ， 在 很 多 缓存 中 都 
无 法 对 其 进行 及 时 的 更 新 。 


























# 存 | 173 




















165 
























客户 端 


(b) 缓存 未 命中 


























mee 
服务 器 











图 7-4 缓存 命中 、 未 命中 以 及 再 验证 


缓存 可 以 在 任意 时 刻 ， 以 任意 的 频率 对 副本 进行 再 验证 。 但 由 于 缓存 中 通常 会 包含 
数 百 万 的 文档 ， 而 且 网 络 带 宽 是 很 珍贵 的 ， 所 以 大 部 分 缓存 只 有 在 客户 端 发 起 请 
求 ， 并 且 副 本 旧 得 足以 需要 检测 的 时 候 ， 才 会 对 副本 进行 再 验证 。 本 章 稍 后 会 解释 
HTTP 的 新 鲜 度 检测 规则 。 


缓存 对 缓存 的 副本 进行 再 验证 时 ， 会 向 原始 服务 器 发 送 一 个 小 的 再 验证 请 求 。 如 果 
内 容 没 有 变化 ， 服 务 器 会 以 一 个 小 的 304 Not Modified 进行 响应 。 只 要 缓存 知道 副 
本 仍然 有 效 ， 就 会 再 次 将 副本 标识 为 暂时 新 鲜 的 ， 并 将 副本 提供 给 客户 端 (参见 图 
7-5a) 这 被 称 作 再 验证 命中 (revalidate hit) 或 缓慢 命中 (slow hit)。 这 种 方式 确实 
要 与 原始 服务 器 进行 核对 ， 所 以 会 比 单纯 的 缓存 命中 要 慢 ， 但 它 没 有 从 服务 器 中 获 
取 对 象 数 据 ， 所 以 要 比 缓存 未 命中 快 一 些 。 


HTTP 为 我 们 提供 了 几 个 用 来 对 已 缓存 对 象 进行 再 验证 的 工具 ， 但 最 常用 的 是 IE- 
Modified-Since 首部 。 将 这 个 首部 添加 到 GET 请 求 中 去 ， 就 可 以 告诉 服务 器 ， 只 
有 在 缓存 了 对 象 的 副本 之 后 ， 又 对 其 进行 了 修改 的 情况 下 ， 才 发 送 此 对 象 。 


这 里 列 出 了 在 3 种 情况 下 〈 服 务 器 内 容 未 被 修改 ， 服 务 器 内 容 已 被 修改 ， 或 者 服务 
器 上 的 对 象 被 删除 了 ) 服务 器 收 到 GET 1£-Modified-Since 请 求 时 会 发 生 的 情况 


e 再 验证 命中 
如 果 服 务 器 对 象 未 被 修改 ， 服 务 器 会 向 客户 端 发 送 一 个 小 的 HTTP 304 Not 
Modified 响应 。 图 7-6 对 此 进行 了 描述 。 
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(a) 再 验证 命中 (缓慢 命中 ) 



































= c RP 
Pa E S 
: 图 TAN 
客户 端 缓存 服务 器 
服务 器 对 象 与 已 缓存 副本 一 样 





(b) 再 验证 未 命中 

















鲜 度 检测 


Hu 
服务 器 


























已 缓存 副本 过 时 了 








图 7-5 成 功 的 再 验证 比 缓存 未 命中 要 快 ， 失 败 的 再 验证 几乎 和 未 命中 的 速度 一 样 








带 有 If-Modified-since 首 部 的 再 验证 请 求 


GET /announce.html HTTP/1.0 
If-Modified-Since: Sat, 29 Jun 2002, 14:30:00 GMT 









































ag UT HTTP/1.0 304 Not Modified Teen 
存 或 代理 缓存 ) Date: Wed, 03 Jul 2002, 19:18:23 GMT 
Content- -type: s" ain 


Content-length: 
Expires: Fri, 05 n 2002, 05:00:00 GMT 








“仍然 新 鲜 ” 响 应 











7-6 HTTP 使 用 If-Modified-Since 首部 进行 再 验证 


再 验证 未 命中 
如 果 服 务 器 对 象 与 已 缓存 副本 不 同 ， 服 务 器 向 客户 端 发 送 一 条 普通 的 、 带 有 
内 容 的 HTTP 200 OK 响应 。 





di 
PË 


对 象 被 删除 
如 果 服 务 器 对 象 已 经 被 删除 了 ， 服 务 器 就 回 送 一 个 404 Not Found 响应 ， 缓 存 也 
会 将 其 副本 删除 。 


7.5.2 ”命中 率 
由 缓存 提供 服务 的 请 求 所 占 的 比例 被 称 为 缓存 命中 率 (cache hit rate， 或 称 为 缓存 
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命中 比例 ),“ 有 时 也 被 称 为 文档 命中 率 (document hit rate)。 命 中 率 在 0 到 1 之 间 ， 
但 通常 是 用 百分数 来 描述 的 ，0% 表示 每 次 请 求 都 未 命中 (要 通过 网 络 来 获取 文 
档 )，100% 表示 每 次 请 求 都 命中 了 (在 缓存 中 有 一 份 副本 )。° 


缓存 的 管理 者 希望 缓存 命中 率 接 近 100%。 而 实际 得 到 的 命中 率 则 与 缓存 的 大 小 、 
缓存 用 户 兴趣 点 的 相似 性 、 缓 存 数 据 的 变化 或 个 性 化 频率 ， 以 及 如 何 配置 缓存 有 关 。 
命中 率 很 难 预测 ， 但 对 现在 中 等 规模 的 Web 缓存 来 说 ，40% 的 命中 率 是 很 合理 的 。 
缓存 的 好 处 是 ， 即 使 是 中 等 规模 的 缓存 ， 甚 所 包含 的 常见 文档 也 足以 显著 地 提高 性 
能 、 减 少 流 量 了 。 缓 存 会 努力 确保 将 有 用 的 内 容 保 存在 缓存 中 。 


7.5.3” 字 节 命 中 率 

由 于 文档 并 不 全 是 同一 尺寸 的 ， 所 以 文档 命中 率 并 不 能 说 明 一 切 。 有 些 大 型 对 象 被 
访问 的 次 数 可 能 较 少 ， 但 由 于 尺寸 的 原因 ， 对 整个 数据 流量 的 贡献 却 更 大 。 因 此 ， 
有 些 人 更 愿意 使 用 字 节 命中 率 (byte hit rate) 作为 度量 值 (尤其 那些 按 流量 字 节 付 
费 的 人 ! )。 


字 市 命中 率 表示 的 是 缓存 提供 的 字 市 在 传输 的 所 有 字 节 中 所 占 的 比例 。 通 过 这 种 度 
量 方式 ， 可 以 得 知 节省 流量 的 程度 。100% 的 字 节 命中 率 说 明 每 个 字 节 都 来 自 缓存 ， 
没有 流量 流 到 因特网 上 去 。 


文档 命中 率 和 字 市 命中 率 对 缓存 性 能 的 评估 都 是 很 有 用 的 。 文 档 命 中 率 说 明 阻止 了 
多 少 通 往 外 部 网 络 的 Web 事务 。 事 务 有 一 个 通常 都 很 大 的 固定 时 间 成 分 (比如 ， 建 
立 一 条 到 服务 器 的 TCP 连接 ) ， 提 高 文档 命中 率 对 降低 整体 延迟 〈 时 延 ) 很 有 好 处 。 
字 节 命中 率 说 明 阻止 了 多 少 字 贡 传 向 因特网 。 提 高 字 节 命中 率 对 节省 带宽 很 有 利 。 


7.5.4 区 分 命中 和 未 命中 的 情况 

不 幸 的 是 ，HTTP 没有 为 用 户 提供 一 种 手段 来 区 分 响应 是 缓存 命中 的 ， 还 是 访问 原 
始 服务 器 得 到 的 。 在 这 两 种 情况 下 ， 响 应 码 都 是 200 OK， 说 明 响应 有 主体 部 分 。 有 
些 商业 代理 缓存 会 在 via 首部 附加 一 些 额外 信息 ， 以 描述 缓 在 中 发 生 的 情况 。 


客户 端 有 一 种 方法 可 以 判断 响应 是 否 来 自 缓存 ， 就 是 使 用 Date 首部 。 将 响应 中 
Date 首部 的 值 与 当前 时 间 进 行 比较 ， 如 果 响 应 中 的 日 期 值 比较 早 ， 客 户 端 通常 就 可 


















































注 4: 术语 “命中 比例 ”可 能 比 “ 命 中 率 ” 要 好 ， 因 为 “命中 率 ” 会 让 人 错误 地 想到 时 间 因 素 。 但 是 “命中 

率 ” 这 个 词 很 常用 ， 所 以 这 里 我 们 也 使 用 它 。 
注 5: 有 时 ， 人 们 会 在 命中 率 中 包括 再 验证 命中 ， 但 有 时 候 命 中 率 和 再 验证 命中 率 是 分 别 测量 的 。 在 检测 命 
中 率 的 时 候 ， 要 确定 自己 知道 什么 才 是 “命中 ”。 
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以 认为 这 是 一 条 缓存 的 响应 。 客 户 端 也 可 以 通过 age 首部 来 检测 缓存 的 响应 ， 通 过 
这 个 首部 可 以 分 辨 出 这 条 响应 的 使 用 期 〈 参 见 附 录 C 中 的 age 首部 )。 


7.6 缓存 的 拓扑 结构 


缓存 可 以 是 单个 用 户 专用 的 ， 也 可 以 是 数 千 名 用 户 共 享 的 。 专 用 缓存 被 称 为 私有 缕 
£ (private cache)。 私 有 缓存 是 个 人 的 缓存 ， 包 含 了 单个 用 户 最 常用 的 页 面 (参见 
7-7a) 。 共 享 的 缓存 被 称 为 公有 缓存 (public cache)。 公 有 缓存 中 包含 了 某 个 用 户 
团体 的 常用 页 面 (参见 图 7-7b) 。 





(a) 访问 私有 缓存 
































因特网 
"idus Web 服 务 器 
(b) 访问 共享 的 公有 缓存 TM 
= 因特网 
Lad Web 服 务 器 
客户 端 E 











7-7 公有 和 私有 缓存 


7.6.1 私有 缓存 

私有 缓存 不 需要 很 大 的 动力 或 存储 空间 ， 这 样 就 可 以 将 其 做 得 很 小 ， 很 便宜 。Web ol 
览 嚣 中 有 内 建 的 私有 缓存 一 一 大 多 数 浏 览 器 都 会 将 常用 文档 缓存 在 你 个 人 电脑 的 磁盘 
和 内 存 中 ， 并 且 允 许 用 户 去 配置 缓存 的 大 小 和 各 种 设置 。 还 可 以 去 看 看 浏览 器 的 缓存 中 
有 些 什 么 内 容 。 比 如 ， 对 微软 的 Internet Explorer 来 说 ， 可 以 从 Tools (工具 ) 一 Internet 
Options... (因特网 选项 ) 对 话 框 中 获取 缓存 内 容 。MSIE 将 缓存 的 文档 称 为 “临时 
文件 ”， 并 将 其 与 相关 的 URL 和 文档 过 期 时 间 一 起 在 文件 列表 中 列 出 。 通 过 特殊 的 
URL about:cache 可 以 查看 网 景 的 Navigator 的 缓存 内 容 ， 这 个 URL 会 给 出 一 个 
显示 了 缓存 内 容 的 “磁盘 缓存 统计 ”页 面 。 


7.6.2 公有 代理 缓存 


公有 缓存 是 特殊 的 共享 代理 服务 器 ， 被 称 为 缓存 代理 服务 器 (caching proxy server), 
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或 者 更 常见 地 被 称 为 代理 缓存 (proxy cache) (第 6 章 讨论 过 代理 ) 。 代 理 缓 存 会 从 
本 地 缓存 中 提供 文档 ， 或 者 代表 用 户 与 服务 器 进行 联系 。 公 有 缓存 会 接受 来 自 多 个 
用 户 的 访问 ， 所 以 通过 它 可 以 更 好 地 减少 元 余 流 量 。 ° 


在 图 7-8a 中 ， 每 个 客户 端 都 会 重复 地 访问 一 个 〈 还 不 在 私有 缓存 中 的 ) 新 的 “ 热 
门 ”文档 。 每 个 私有 缓存 都 要 获取 同一 份 文档 ， 这 样 它 就 会 多 次 罕 过 网 络 。 而 如 图 
7-8b 所 示 ， 使 用 共享 的 公有 缓存 时 ， 对 于 这 个 流行 的 对 象 ， 缓 存 只 要 取 一 次 就 行 
了 ， 它 会 用 共享 的 副本 为 所 有 的 请 求 服务 ， 以 降低 网 络 流量 。 














(a) 来 自私 有 缓存 的 重复 访问 


LL 7$ 
#P O 因特网 
L aun NM - 
— BÀ € ERES » 

客户 端 

"E 
DT 
(b) 共享 缓存 可 以 减少 流量 

M 

















7T-8 共享 的 公有 缓存 可 以 降低 网 络 流量 

代理 缓存 遵循 第 6 章 描 述 的 代理 规则 。 可 以 通过 指定 手工 代理 ， 或 者 通过 代理 自动 
配置 文件 ， 将 你 的 浏览 器 配置 为 使 用 代理 缓存 (参见 6.4.1 节 )。 还 可 以 通过 使 用 拦 
截 代 理 在 不 配置 浏览 器 的 情况 下 ， 强 制 HTTP 请 求 经 过 缓存 传输 (参见 第 20 章 )。 

















注 6: 公有 缓存 要 缓存 用 户 群体 中 各 种 不 同 的 兴趣 点 ， 所 以 要 足够 大 才能 承载 常用 的 文档 集 ， 而 不 会 被 单个 
用 户 所 感 兴 趣 的 文档 占 满 。 
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7.6.8 代理 缓存 的 层次 结构 
在 实际 中 ， 实 现 层次 化 (hierarchy) 的 缓存 是 很 有 意义 的 ， 在 这 种 结构 中 ， 在 较 小 
缓存 中 未 命中 的 请 求 会 被 导向 较 大 的 父 缓存 (parent cache) ， 由 它 来 为 剩 下 的 那些 
“提炼 过 的 ”流量 提供 服务 。 图 7-9 显示 了 一 个 两 级 的 缓存 层次 结构 。 ' 其 基本 思想 
是 在 靠近 客户 端的 地 方 使 用 小 型 廉价 缓存 ， 而 更 高 层次 中 ， 则 逐步 采用 更 大 、 功 能 
更 强 的 缓存 来 装载 多 用 户 共 享 的 文档 。” 





























原始 服务 吕 RARUS UD 
广域网 广域网 广域网 
bi E. 一 人 
E 
8 ette 一 局 第 二 级 缓存 
地 区 性 网 络 地 区 性 网 络 地 区 性 网 络 
[| — W. AMA 
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(a) 第 一 级 缓存 命中 











"n. 


(b) 第 二 级 缓存 命中 








(c) 第 二 级 缓存 未 命中 











图 7-9 在 两 级 的 缓存 层次 结构 中 访问 文档 





我 们 希望 大 部 分 用 户 都 能 在 附近 的 第 一 级 缓存 中 命中 (参见 图 7-9a)。 如 果 没 有 命 
中 ， 较 大 的 父 缓 存 可 能 能 够 处 理 它们 的 请 求 (参见 图 7-9b)。 在 缓存 层次 结构 很 深 
的 情况 下 ， 请 求 可 能 要 穿 过 很 长 一 溜 缓 存 ， 但 每 个 拦截 代理 都 会 添加 一 些 性 能 损耗 ， 
当代 理 链 路 变 得 很 长 的 时 候 ， 这 种 性 能 损耗 会 变 得 非常 明显 。” 





























注 7: 如 果 客 户 端 浏览 器 自 带 缓 存 ， 那 么 从 技术 上 来 讲 ， 图 7-9 显示 的 就 是 一 个 三 级 的 缓存 层次 结构 。 

注 8: 父 缓存 可 能 要 更 大 一 些 , 以 便装 载 在 多 用 户 间 流行 的 文档 , 它们 还 要 接收 来 自 很 多 子 缓存 的 聚合 流量 ， 
这 些 子 缓存 的 兴趣 点 可 能 很 分 散 ， 所 以 还 需要 更 高 的 性 能 。 

注 9: 在 实际 中 ， 网 络 结构 会 尝试 着 将 其 深度 限制 在 连续 的 两 到 三 个 代理 以 内 。 但 是 ， 新 一 代 的 高 性 能 代理 





























服务 器 会 使 代理 链 的 长 度 变 得 不 那么 重要 。 
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7.6.4 网 状 缓存 、 内 容 路 由 以 及 对 等 缓存 

有 些 网 络 结构 会 构建 复杂 的 网 状 缓存 (cache mesh) ， 而 不 是 简单 的 缓存 层次 结构 。 
网 状 缓存 中 的 代理 缓存 之 间 会 以 更 加 复杂 的 方式 进行 对 话 ， 做 出 动态 的 缓存 通信 决 
策 ， 决 定 与 哪个 父 缓存 进行 对 话 ， 或 者 决定 彻底 绕 开 缓存 ， 直 接连 接 原始 服务 器 。 
这 种 代理 缓存 会 决定 选择 何 种 路 由 对 内 容 进 行 访问 、 管 理 和 传送 ， 因 此 可 将 其 称 为 
内 容 路 由 器 (content router) , 

















网 状 缓存 中 为 内 容 路 由 设计 的 缓存 〈 除 了 其 他 任务 之 外 ) 要 完成 下 列 所 有 功能 。 


。 根据 URL 在 父 缓存 或 原始 服务 器 之 间 进行 动态 选择 。 

+ 根据 URL 动态 地 选择 一 个 特定 的 父 缓存 。 

。 前 往 父 缓存 之 前 ， 在 本 地 缓存 中 搜索 已 缓存 的 副本 。 

。 允许 其 他 缓存 对 其 缓存 的 部 分 内 容 进行 访问 ， 但 不 允许 因特网 流量 通过 它们 的 
缓存 。 








缓存 之 间 这 些 更 为 复杂 的 关系 允许 不 同 的 组 织 互 为 对 等 (peer) 实体 ， 将 它们 的 
缓存 连接 起 来 以 实现 共 赢 。 提 供 可 选 的 对 等 支持 的 缓存 被 称 为 兄弟 缓存 (sibling 
cache) (WE 7-10), HTTP 并 不 支持 兄弟 缓存 ， 所 以 人 们 通过 一 些 协议 对 HTTP 
进行 了 扩展 ， 比 如 因特网 缓存 协议 (Internet Cache Protocol, ICP) 和 超 文本 缓存 协 
iX (HyperText Caching Protocol，HTCP) 。 我 们 将 在 第 20 章 讨 论 这 些 协议 。 
































B 的 访问 点 一 


一 人 的 访问 点 
» ~. 











7-10 兄弟 缓存 
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7.7 ”缓存 的 处 理 步 又 


现代 的 商业 化 代理 缓存 相当 地 复杂 。 这 些 缓存 构建 得 非常 高 效 ， 可 以 支持 HTTP 和 
其 他 一 些 技术 的 各 种 高 级 特性 。 但 除了 一 些微 妙 的 细节 之 外 ，Web 缓存 的 基本 工作 
原理 大 多 很 简单 。 对 一 条 HTTP GET 报 文 的 基本 缓存 处 理 过 程 包 括 7 个 步骤 (参见 





图 7-11), 
(1) 接收 一 一 缓存 从 网 络 中 读 取 抵达 的 请 求 报 文 。 
(2) 解析 一 一 缓存 对 报 文 进行 解析 ， 提 取出 URL 和 各 种 首部 。 


(3) 查询 一 一 缓存 查看 是 否 有 本 地 副本 可 用 ， 如 果 没 有 ， 就 获取 一 份 副本 (并 将 


存在 本 地 )。 





其 保 


(4) 新 鲜 度 检 测 一 一 缓存 查看 已 缓存 副本 是 否 足 够 新 鲜 ， 如 果 不 是 ， 就 询问 服务 器 是 





否 有 任何 更 新 。 
(5) 创建 响应 
(6) 发 送 一 一 缓存 通过 网 络 将 响应 发 回 给 客户 端 。 

C) 日志 一 一 缓存 可 选 地 创建 一 个 日 志文 件 条 目 来 描述 这 个 事务 。 





缓存 会 用 新 的 首部 和 已 缓存 的 主体 来 构建 一 条 响应 报 文 。 








GET /www.joes-hardware.com/index.html HTTP/1.1 
User-agent: Superbrowser 2.0 

Host: Www. Joes-hardware.com 

Accept: *. 


(1) 接收 HTTP 请 求 报 文 
(2) 对 报 文 进行 解析 


(5) 创建 响应 首部 











(3) 缓存 




















(6) 发 送 响应 


HTTP/1.1 200 OK 
Content-length: 2140 
Content-type: text/html 
Cache-control: max-age-86400 
Age: 21562 

Via: ses 








«HEAD»«TITLE»Joe?s Hardware Home Page«/TITLE»«/HEAD» 
«BODY»«Hi»Welcome to Joe's Hardware«/H1»... 











服务 器 
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图 7-11 处 理 一 个 新 鲜 的 缓存 命中 


7.7.1 第 一 步 一 一 接收 
在 第 一 步 中 ， 缓 存 检测 到 一 条 网 络 连接 上 的 活动 ， 读 取 输 入 数据 。 
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同时 从 多 条 输入 连接 上 读 取 数据 ， 在 整 条 报 文 抵 达 之 前 开始 对 事务 进行 处 理 。 


7.7.2 第 二 步 解析 
接 下 来 ， 缓 存 将 请 求 报 文 解析 为 片断 ， 将 首部 的 各 个 部 分 放 入 易于 操作 的 数据 结构 
中 。 这 样 ， 缓 存 软件 就 更 容易 处 理 首部 字段 并 修改 它们 了 。2 


773 第 三 步 一 一 查找 


在 第 三 步 中 ， 缓 存 获 取 了 URL， 查 找 本 地 副本 。 本 地 副本 可 能 存储 在 内 存 、 本 地 磁 
盘 ， 甚 至 附近 的 另 一 台 计 算 机 中 。 专 业 级 的 缓存 会 使 用 快速 算法 来 确定 本 地 缓存 中 
是 否 有 某 个 对 象 。 如 果 本 地 没有 这 个 文档 ， 它 可 以 根据 情形 和 配置 ， 到 原始 服务 器 
或 父 代理 中 去 取 ， 或 者 返回 一 条 错误 信息 。 


已 缓存 对 象 中 包含 了 服务 器 响应 主体 和 原始 服务 器 响应 首部 ， 这 样 就 会 在 缓存 命中 
时 返回 正确 的 服务 器 首部 。 已 缓存 对 象 中 还 包含 了 一 些 元 数据 (metadata), ， 用 来 记 
录 对 象 在 缓存 中 停留 了 多 长 时 间 ， 以 及 它 被 用 过 多 少 次 等 。" 


7.7.4 ”第 四 步 一 一 新 鲜 度 检测 

HTTP 通过 缓存 将 服务 器 文档 的 副本 保留 一 段 时 间 。 在 这 段 时 间 里 ， 都 认为 文档 是 
“新 鲜 的 "， 缓 存 可 以 在 不 联系 服务 器 的 情况 下 ， 直 接 提供 该 文档 。 但 一 旦 已 缓存 副 
本 停留 的 时 间 太 长 ， 超 过 了 文档 的 新 鲜 度 限 值 (freshness limit) ， 就 认为 对 象 “ 过 
时 ”了 ， 在 提供 该 文档 之 前 ， 缓 存 要 再 次 与 服务 器 进行 确认 ， 以 查看 文档 是 否 发 生 
了 变化 。 客 户 端 发 送 给 缓存 的 所 有 请 求 首 部 自身 都 可 以 强制 缓存 进行 再 验证 ， 或 者 
完全 避免 验证 ， 这 使 得 事情 变 得 更 加 复杂 了 。 


HTTP 有 一 组 非常 复杂 的 新 鲜 度 检测 规则 ， 缓 存 产 品 支 持 的 大 量 配 置 选项 ， 以 及 与 
JE HTTP 新 鲜 度 标准 进行 互通 的 需要 则 使 问题 变 得 更 加 严重 了 。 本 章 其 余 的 大 部 分 
篇 幅 都 用 于 解释 新 鲜 度 的 计算 问题 。 


7.7.5 fmi 创建 响应 
我 们 希望 缓存 的 响应 看 起 来 就 像 来 自 原始 服务 器 的 一 样 ， 缓 存 将 已 缓存 的 服务 器 响 















































注 10: 解析 程序 还 要 负责 首部 各 部 分 的 标准 化 ， 将 大 小 写 或 可 替换 数据 格式 之 类 不 太 重 要 的 区 别 都 看 作 等 
效 的 。 而 且 ， 某 些 请 求 报 文中 包含 有 完整 的 绝对 URL， 而 其 他 一 些 请 求 中 包含 的 则 是 相对 URL 和 
Host 首部 ， 所 以 解析 程序 通常 都 要 将 这 些 细节 隐藏 起 来 (参见 2.3.1 节 )。 

注 11: 复杂 的 缓存 还 会 保留 引发 服务 器 响应 的 原始 客户 端 响应 首部 的 一 份 副本 ， 以 用 于 HITP/1.1 内 容 协商 
(参见 第 17 章 )。 
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应 首部 作为 响应 首部 的 起 点 。 然 后 缓存 对 这 些 基 础 首部 进行 了 修改 和 扩充 。 


缓存 负责 对 这 些 首部 进行 改造 ， 以 便 与 客户 端的 要 求 相 匹配 。 比 如 ， 服 务 器 返回 
的 可 能 是 一 条 HTTP/1.0 响应 (其 至 是 HTTP/0.9 响应 ) ， 而 客户 端 期 待 的 是 一 条 
HTTP/1.1 响应 ， 在 这 种 情况 下 ， 缓 存 必 须 对 首部 进行 相应 的 转换 。 缓 存 还 会 向 其 中 
插入 新 鲜 度 信息 (Cache-Control, Age 以 及 Expires 首部 ) ， 而 且 通 常会 包含 一 
个 via 首部 来 说 明 请 求 是 由 一 个 代理 缓存 提供 的 。 


注意 ， 缓 存 不 应 该 调整 Date 首部 。Date 首部 表示 的 是 原始 服务 器 最 初 产生 这 个 对 
象 的 日 期 。 








7.7.6 ”第 六 步 一 一 发 送 

一 旦 响应 首部 准备 好 了 ， 缓 存 就 将 响应 回 送 给 客户 端 。 和 所 有 代理 服务 器 一 样 ， 代 
理 缓存 要 管理 与 客户 端 之 间 的 连接 。 高 性 能 的 缓存 会 尽力 高 效 地 发 送 数据 ， 通 常 可 
以 避免 在 本 地 缓存 和 网 络 IO. 缓冲 区 之 间 进 行文 档 内 容 的 复制 。 


7.7.7 第 七 步 日 志 


大 多 数 缓存 都 会 保存 日 志文 件 以 及 与 缓存 的 使 用 有 关 的 一 些 统计 数据 。 每 个 缓存 事 
务 结 束 之 后 ， 缓 存 都 会 更 新 缓存 命中 和 未 命中 数目 的 统计 数据 (以 及 其 他 相关 的 度 
量 值 )， 并 将 条 目 插 入 一 个 用 来 显示 请 求 类 型 、URL 和 所 发 生 事件 的 日 志文 件 。 


最 常见 的 缓存 日 志 格式 为 Squid 日 志 格 式 和 网 景 的 可 扩展 通用 日 志 格 式 ， 但 很 多 组 
存 产 品 都 允许 用 户 创建 自 定义 的 日 志文 件 。 第 21 章 探讨 了 日 志文 件 格式 。 


7.7.8 缓存 处 理 流程 图 


7-12 以 简化 形式 显示 了 缓存 是 如 何 处 理 请 求 ， 以 GET 一 个 URL BJ, " 


7.8 保持 副本 的 新 鲜 
可 能 不 是 所 有 的 已 缓存 副本 都 与 服务 器 上 的 文档 一 臻 。 和 毕竟， 这 些 文档 会 随 着 时 间 
发 生变 化 。 报 告 可 能 每 个 月 都 会 变化 。 在 线 报纸 每 天 都 会 发 生变 化 。 财 经 数据 可 能 
每 过 儿 秒 钟 就 会 发 生变 化 。 如 果 缓 存 提 供 的 总 是 老 的 数据 ， 就 会 变 得 毫 无 用 处 。 已 
缓存 数据 要 与 服务 器 数据 保持 一 致 。 
HTTP 有 一 些 简单 的 机 制 可 以 在 不 要 求 服务 器 记 住 有 哪些 缓存 拥有 其 文档 副本 的 情 



































注 12: 可 以 通过 条 件 请 求 在 一 步 里 完成 图 7-12 列 出 的 资源 再 验证 及 获取 (参见 7.8.4 节 )。 
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况 下 ， 保 持 已 缓存 数据 与 服务 器 数据 之 间 充 分 一 致 。HTTP 将 这 些 简单 的 机 制 称 为 
文档 过 期 (document expiration) 和 服务 器 再 验证 (server revalidation), 












































对 已 缓存 文档 的 
新 鲜 度 进行 更 新 














提供 给 客户 端 





从 服务 器 获取 





& 7-12 缓存 GET 请 求 的 流程 图 


7.8.1 文档 过 期 


通过 特殊 的 HTTP Cache-Control 首部 和 Expires 首部 ，HTTP 让 原始 服务 器 向 
7-13)。 就 像 一 夸 脱 牛奶 上 的 过 期 日 期 一 
样 ， 这 些 首部 说 明了 在 多 长 时 间 内 可 以 将 这 些 内容 视 为 新 鲜 的 。 


每 个 文档 附加 了 一 个 “过 期 日 期 ”( 参 见 图 














HTTP/1.0 200 OK 


Content-type: text/plain 
Content-length: 67 


Come shop with us today! 





Date: Sat, 29 Jun 2002, 14:30:00 GMT 


Expires: Fri, 05 Jul 2002, 05:00:00 GMT 


Independence Day sale at Joe's Hardware 








HTTP/1.0 200 OK 

Date: Sat, 29 Jun 2002, 14:30:00 GMT 
Content-type: text/plain 
Content-length: 67 

Cache-Control: max-age-484200 


Independence Day sale at Joe's Hardware 
Come shop with us today! 








(a) Expires 首 部 








(b) Cache-Control; max-age 首 部 




















7-13 Expires 首部 和 Cache-Control 首部 








在 缓存 文档 过 期 之 前 ， 缓 存 可 以 以 任意 频率 使 用 这 些 副 本 ， 而 无 需 与 服务 器 联 


系 一 一 当然 ， 除 非 客户 端 请 求 中 包含 有 阻止 提供 已 缓存 或 未 验证 资源 的 首部 。 但 一 


旦 已 缓存 文档 过 期 缓存 就 必须 与 服务 如 进行 核对 ， 询 问 文 档 是 否 被 修改 过 ， 如 








被 修改 过 ， 就 要 获取 一 份 新 鲜 ( 带 有 新 的 过 期 日 期 ) 的 副本 。 





FH 
个 
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7.8.2 ”过 期 日 期 和 使 用 期 


服务 器 用 HTTP/1.0+ 的 Expires 首部 或 HTTP/1.1 的 Cache-Control: max-age 了 响应 首 
部 来 指定 过 期 日 期 同时 还 会 带 有 了 响应 主体 。Expires 首部 和 Cache-control: 
max-age 首部 所 做 的 事情 本 质 上 是 一 样 的 ， 但 由 于 cache-control 首部 使 用 的 是 
相对 时 间 而 不 是 绝对 日 期 ， 所 以 我 们 更 倾向 于 使 用 比较 新 的 Cache-Control 首部 。 
绝对 日 期 依赖 于 计算 机 时 钟 的 正确 设置 。 表 7-2 列 出 了 各 种 过 期 响应 首部 。 








表 7-2 ”过 期 响应 首部 
H B 描述 
Cache-Control :max-age max-age 值 定义 了 文档 的 最 大 使 用 期 一 一 从 第 一 次 生成 文档 到 文档 不 再 新 
鲜 、 无 法 使 用 为 止 ， 最 大 的 合法 生存 时 间 (以 秒 为 单位 ) 


Cache-Control: max-age=484200 
































Expires 指定 一 个 绝对 的 过 期 日 期 。 如 果 过 期 日 期 已 经 过 了 ， 就 说 明文 档 不 再 新 鲜 了 


Expires: Fri, 05 Jul 2002, 05:00:00 GMT 





假设 今天 是 美国 东部 标准 时 间 (EST, Eastern Standard Time) 2002 Æ 6 H 29 H E 
Æ 9:30, Joe 的 五 金 商店 正在 准备 进行 7 月 4 日 (美国 国庆 日 ) 特卖 (只 剩 5 天 
T). Joe 想 在 他 的 Web 服务 器 上 放置 一 个 特殊 的 Web 页 面 ， 并 将 其 设置 为 2002 年 
7 月 5 日 晚上 的 EST 午夜 时 间 过 期 。 如 果 Joe 的 服务 器 使 用 的 是 老式 的 Expires Ë 
部 ， 服 务 器 响应 报 文 (参见 图 7-13a) 中 可 能 就 会 包含 这 个 首部 : ” 








Expires: Fri, 05 Jul 2002, 05:00:00 GMT 


如 果 Joe 的 服务 器 使 用 了 较 新 的 Cache-Control: max-age 首部 ， 服 务 器 响应 报 文 
(参见 图 7-13b) 中 可 能 就 会 包含 这 个 首部 : 





Cache-Control: max-age=484200 


如 果 这 还 不 够 明确 的 话 ， 可 以 这 样 来 看 ， 当 前 时 间 ，EST 时 间 2002 年 6 月 29 日 早上 
9 : 30， 到 售卖 结束 时 间 2002 年 7 月 5 日 午夜 之 间 有 484 200 秒 。 到 售卖 结束 之 前 还 
有 134.5 小 时 (大 约 5 天 )。 每 小 时 有 3600 秒 ， 这 样 到 售卖 结束 之 前 还 有 484 200 fh, 


7.8.8 ”服务 器 再 验证 
仅仅 是 已 缓存 文档 过 期 了 并 不 意味 着 它 和 原始 服务 器 上 目前 处 于 活跃 状态 的 文档 有 























注 13: 所 有 HTTP 日 期 和 时 间 都 会 在 格林 尼 治 标准 时 间 (GMT) 过 期 。GMT 是 穿 过 英国 格林 尼 治 的 本 
初子 午 线 (经 度 为 零 ) 上 的 时 间 。GMT 比美 国 东部 标准 时 间 早 五 个 小 时 ， 因 此 EST 的 午夜 就 是 
05 : 00GMT, 
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实际 的 区 别 ， 这 只 是 意味 着 到 了 要 进行 核对 的 时 间 了 。 这 种 情况 被 称 为 “服务 器 再 
验证 ”， 说 明 缓 存 需要 询问 原始 服务 器 文档 是 否 发 生 了 变化 。 


° 如 果 再 验证 显示 内 容 发 生 了 变化 ， 缓 存 会 获取 一 份 新 的 文档 副本 ， 并 将 其 存储 在 
旧 文 档 的 位 置 上 ， 然 后 将 文档 发 送 给 客户 端 。 

° 如 果 再 验证 显示 内 容 没有 发 生变 化 ， 缓 存 只 需要 获取 新 的 首部 ， 包 括 一 个 新 的 过 
期 日 期 ， 并 对 缓存 中 的 首部 进行 更 新 就 行 了 。 








这 是 个 很 棒 的 系统 。 缓 存 并 不 一 定 要 为 每 条 请 求 验证 文档 的 有 效 性 一 一 只 有 在 文档 
过 期 时 它 才 需要 与 服务 器 进行 再 验证 。 这 样 不 会 提供 陈旧 的 内 容 ， 还 可 以 节省 服务 
器 的 流量 ， 并 拥有 更 好 的 用 户 响应 时 间 。 








HTTP 协议 要 求 行 为 正确 的 缓存 返回 下 列 内 容 之 一 : 


° “足够 新 鲜 ” 的 已 缓存 副本 ， 

° 与 服务 器 进行 过 再 验证 ， 确 认 其 仍然 新 鲜 的 已 缓存 副本 ， 

° 如 果 需 要 与 之 进行 再 验证 的 原始 服务 器 出 故障 了 ， 就 返回 一 条 错误 报 文 s 
° 附 有 警告 信息 说 明 内 容 可 能 不 正确 的 已 缓存 副本 。 





7.8.4 用 条 件 方法 进行 再 验证 


HTTP 的 条 件 方法 可 以 高 效 地 实现 再 验证 。HTTP 允许 缓存 向 原始 服务 器 发 送 一 个 
“条 件 GET”， 请 求 服务 器 只 有 在 文档 与 缓存 中 现 有 的 副本 不 同时 ， 才 回 送 对 象 主 
体 。 通 过 这 种 方式 ， 将 新 鲜 度 检测 和 对 象 获 取 结 合成 了 单个 条 件 GET。 向 GET 请 
求 报 文中 添加 一 些 特殊 的 条 件 首 部 ， 就 可 以 发 起 条 件 GET。 只 有 条 件 为 真 时 ，Web 
服务 器 才 会 返回 对 象 。 





HTTP 定义 了 5 个 条 件 请 求 首部 。 对 缓存 再 验证 来 说 最 有 用 的 2 个 首部 是 r£- 
Modified-Since 和 If-None-Match。 ”所 有 的 条 件 首部 都 以 前 级 “If-” 开 头 。 表 
7-3 列 出 了 在 缓存 再 验证 中 使 用 的 条 件 请 求 首部 。 














注 14: 如 果 原 始 服务 器 不 可 访问 ， 但 缓存 需要 进行 再 验证 ， 那 么 缓存 就 必须 返回 一 条 错误 或 一 条 用 来 描述 
通信 故障 的 警告 报 文 。 否 则 ， 来 自己 移 除 服 务 器 上 的 页 面 未 来 可 能 会 在 网 络 的 缓存 中 存留 任意 长 的 
时 间 。 

注 15: 其 他 条 件 首部 包括 1£-Unmodified-Since (在 进行 部 分 文件 的 传输 时 ， 获 取 文 件 的 其 余部 分 之 前 
要 确保 文件 未 发 生变 化 ， 此 时 这 个 首部 是 非常 有 用 的 )、If-Range (支持 对 不 完整 文档 的 缓存 ) 和 
1f-Match (用 于 与 Web 服务 器 打交道 时 的 并 发 控制 ) 。 
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表 7-3 ”缓存 再 验证 中 使 用 的 两 个 条 件 首部 
B à # 述 





If-Modified-Since:<date> ”如 果 从 指定 日 期 之 后 文档 被 修改 过 了 ， 就 执行 请 求 的 方法 。 可 以 与 
Last-Modified 服务 器 响应 首部 配合 使 用 ， 只 有 在 内 容 被 修改 后 与 已 
缓存 版 本 有 所 不 同 的 时 候 才 去 获取 内 容 

If-None-Match:<tags> ”服务 器 可 以 为 文档 提供 特殊 的 标签 (参见 Brag) ， 而 不 是 将 其 与 最 近 修 
改 日 期 相 匹配 ， 这 些 标签 就 像 序列 号 一 样 。 如 果 已 缓存 标签 与 服务 器 文 
档 中 的 标签 有 所 不 同 ，If-None-Match 首部 就 会 执行 所 请 求 的 方法 















































7.8.5 If-Modified-SsSince:Date 再 验证 


最 常见 的 缓存 再 验证 首部 是 T£ -Modified-Since, If-Modified-Since 再 验证 请 
求 通 常 被 称 为 IMS 请 求 。 只 有 自 某 个 日 期 之 后 资源 发 生 了 变化 的 时 候 ，IMS 请 求 才 
会 指示 服务 器 执行 请 求 : 


° 如 果 自 指定 日 期 后 ， 文 档 被 修改 了 ，If-Modified-since 条 件 就 为 真 ， 通 党 
GET 就 会 成 功 执行 。 携 带 新 首部 的 新 文档 会 被 返回 给 缓存 ， 新 首部 除了 其 他 信 
息 之 外 ， 还 包含 了 一 个 新 的 过 期 日 期 。 

° 如 果 自 指定 日 期 后 ， 文 档 没 被 修改 过 ， 条 件 就 为 假 ， bile s 
的 304 Not Modified 响应 报 文 ， 为 了 提高 有 效 性 ， 不 会 返回 文档 的 主体 。 

些 首部 是 放 在 响应 中 返回 的 ， 但 只 会 返回 那些 需要 在 源 端 更 新 的 首部 。 ns 
Content-Type 首部 通常 不 会 被 修改 ， 所 以 通常 不 需要 发 送 。 一 般 会 发 送 一 个 
新 的 过 期 日 期 。 


If-Modified-Since 首部 可 以 与 Last-Modified 服务 器 响应 首部 配合 工作 。 原 始 
服务 器 会 将 最 后 的 修改 日 期 附加 到 所 提供 的 文档 上 去 。 当 缓存 要 对 已 缓存 文档 进行 
再 验证 时 , 就 会 包含 一 个 1£-Modified-Since 首部 , 其 中 携带 有 最 后 修改 已 缓存 副 
本 的 日 期 : 























If-Modified-Since: «cached last-modified date» 


如 果 在 此 期 间 内 容 被 修改 了 ， 最 后 的 修改 日 期 就 会 有 所 不 同 ， 原 始 服务 器 就 会 回 送 
新 的 文档 。 否 则 ， 服 务 器 会 注意 到 缓存 的 最 后 修改 日 期 与 服务 器 文档 当前 的 最 后 修 
改 日 期 相符 ， 会 返回 一 个 304 Not Modified 响应 。 











注 16: 如 果 有 一 个 不 认识 If-Modified-since 首部 的 老 服 务 器 收 到 了 条 件 请 求 ， 它 会 将 其 作为 一 
的 GET 解释 。 在 这 种 情况 下 ,系统 仍然 能 够 工作 ， 但 由 于 要 对 未 修改 的 文档 数据 进行 不必 要 的 传输 ， 
所 以 效率 会 比较 低 。 
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例如 ， 如 图 7-14 所 示 ， 如 果 你 的 缓存 在 7 月 3 日 对 Joe 的 五 金 商 店 的 7 月 4 日 特卖 
声明 进行 再 验证 ， 就 会 收 到 一 条 Not Modified 响应 (参见 图 7-14a) 。 但 如 果 你 的 组 
存在 7 月 5 日 午夜 售卖 结束 后 对 文档 进行 再 验证 ， 缓 存 就 会 收 到 一 个 新 文档 ， 因 为 


服务 器 内 容 已 经 发 生 了 变化 (参见 图 








7-14b)。 





条 件 请 求 








GET /announce.html HTTP/1.0 
If-Modified-Since: Sat, 29 Jun 2002, 14:30:00 GMT 














"m HTTP/1.0 304 Not Modified Bg 
客户 端 Date: Wed，03 Jul 2002, 19:18:23 GMT 服务 器 
Expires: Fri, 05 Jul 2002, 14:30:00 GMT 








条 件 请 求 


ll 
(a) If-Modified-since 成 功 的 再 验证 


向 应 




















GET /announce.html HTTP/1.0 
If-Modified-Since: Sat, 29 Jun 2002, 14:30:00 GMT 














apum HTTP/1.0 200 OK 服务 器 
Date: Fri, 05 Jul 2002, 17:54:40 GMT A 
Content-type: text/plain 
Content-length: 124 
Expires: Mon, 09 Sep 2002, 05:00:00 GMT 


All exterior house paint on sale through 
Labor Day. Just another reason for you 
to shop this summer at Joe's Hardware! 











Hj] 
(b) If-Modified-since 失 败 的 再 验证 


Um 


























图 7-14 ”如 果 未 发 生变 化 , If-Modified-since 再 验证 会 返回 304 响应 ， 如 果 发 生 了 变化 ， 


就 返回 带 有 新 主体 的 200 响应 


注意 ， 有 些 Web 服务 器 并 没有 将 1£-Modified-Since 作为 真正 的 日 期 来 进行 比 


对 。 相 反 ， 它 们 在 MS 日 期 和 最 后 修改 日 期 之 间 进 行 


了 字符 串 匹配 。 这 样 得 到 的 语 


义 就 是 “如 果 最 后 的 修改 不 是 在 这 个 确定 的 日 期 进行 的 ”， 而 不 是 “如 果 在 这 个 日 期 
之 后 没有 被 修改 过 "。 将 最 后 修改 日 期 作为 某 种 序列 号 使 用 时 ， 这 种 替代 语义 能 够 很 
好 地 识别 出 缓存 是 否 过 期 ,但 这 会 妨碍 客户 端 将 If-Modified-Since 首部 用 于 真 


正 基于 时 间 的 一 些 目的 。 
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7.8.6 If-None-Match. 实体 标签 再 验证 
有 些 情况 下 仅 使 用 最 后 修改 日 期 进行 再 验证 是 不 够 的 。 


。 有 些 文档 可 能 会 被 周期 性 地 重 写 (比如 ， 从 一 个 后 台 进 程 中 写 和 人 ) ， 但 实际 包含 
的 数据 常常 是 一 样 的 。 尽 管内 容 没 有 变化 ， 但 修改 日 期 会 发 生变 化 。 

。 有 些 文档 可 能 被 修改 了 ， 但 所 做 修改 并 不 重要 ， 不 需要 让 世界 范围 内 的 缓存 都 重 
装 数据 (比如 对 拼写 或 注释 的 修改 )。 

° 有 些 服务 器 无 法 准确 地 判定 其 页 面 的 最 后 修改 日 期 。 

° 有 些 服务 器 提供 的 文档 会 在 亚 秒 间隙 发 生变 化 〈 比 如 ， 实 时 监视 器 ) ， 对 这 些 服 
务 器 来 说 ， 以 一 秒 为 粒度 的 修改 日 期 可 能 就 不 够 用 了 。 


为 了 解决 这 些 问题 ，HTTP 允许 用 户 对 被 称 为 实体 标签 (ETag) 的 “版 本 标识 符 
进行 比较 。 实 体 标签 是 附加 到 文档 上 的 任意 标签 (引用 字符 串 )。 它 们 可 能 包含 了 文 
档 的 序列 号 或 版 本 名 ,或 者 是 文档 内 容 的 校 验 和 及 其 他 指纹 信息 。 


当 发 布 者 对 文档 进行 修改 时 ， 可 以 修改 文档 的 实体 标签 来 说 明 这 个 新 的 版 本 。 这 样 ， 
如 果实 体 标 签 被 修改 了 ， 缓 存 就 可 以 用 I£-None-Match 条 件 首部 来 GET 文档 的 新 
副本 了 。 


在 图 7-15 中 ,缓存 中 有 一 个 实体 标签 为 v2.6 的 文档 。 它 会 与 原始 服务 器 进行 再 验 
证 ， 如 果 标 签 v2.6 不 再 匹配 ， 就 会 请 求 一 个 新 对 象 。 在 图 7-15 中 ， 标 签 仍然 与 之 
匹配 ， 因 此 会 返回 一 条 304 Not Modified 响应 。 























条 件 请 求 


GET /announce. html a 0 
If-None-Match: "v2. 



































lo - M i HTTP/1. 0 304 Not Modified uoo F 
缓存 Date: Wed, 03 Jul 2002, 49:18:23 GMT 服务 器 
ETag: " 
Eo ee Fri, 05 Jul 2002, 05:00:00 GMT 
响应 





图 7-15 因为 实体 标签 仍然 匹配 ，If-None-Match 再 验证 成 功 


如 果 服 务 器 上 的 实体 标签 已 经 发 生 了 变化 (可 能 变 成 了 v3.0)， 服 务 器 会 在 一 个 200 
OK 响应 中 返回 新 的 内 容 以 及 相应 的 新 Etag。 


可 以 在 1£-None-Match 首部 包含 儿 个 实体 标签 ， 告 诉 服 务 器 ， 缓 存 中 已 经 存在 带 
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有 这 些 实体 标签 的 对 象 副 本 : 


If-None-Match: "v2.6" 
If-None-Match: "v2.4","v2.5","y2,6" 
If-None-Match: "foobar","A34FACO095","Profiles in Courage" 


7.8.7 388 WESS 

缓存 可 以 用 实体 标签 来 判断 ， 与 服务 器 相 比 ， 已 缓存 版 本 是 不 是 最 新 的 (与 使 用 最 
近 修 改 日 期 的 方式 很 像 ) 。 从 这 个 角度 来 看 ， 实 体 标签 和 最 近 修 改 日 期 都 是 缓存 验证 
器 (cache validator), 


有 时 ， 服 务 器 希望 在 对 文档 进行 一 些 非 实质 性 或 不 重要 的 修改 时 ， 不 要 使 所 有 的 已 
缓存 副本 都 失效 。HTTP/1.1 支持 “ 弱 验 证 器 ” ， 如 果 只 对 内 容 进 行 了 少量 修改 ， 就 
允许 服务 器 声明 那 是 “足够 好 ”的 等 价 体 。 

只 要 内 容 发 生 了 变化 ， 强 验证 器 就 会 变化 。 弱 验证 器 允许 对 一 些 内 容 进 行 修 改 ， 但 
内 容 的 主要 含义 发 生变 化 时 ， 通 常 它 还 是 会 变化 的 。 有 些 操作 不 能 用 弱 验 证 器 来 实 
现 (比如 有 条 件 地 获取 部 分 内 容 )， 所 以 ， 服 务 器 会 用 前 级 “W/” 来 标识 弱 验 证 器 。 














ETag: W/"v2.6" 

If-None-Match: W/"v2.6" 
不 管 相关 的 实体 值 以 何 种 方式 发 生 了 变化 ， 强 实体 标签 都 要 发 生变 化 。 而 相关 实体 
在 语义 上 发 生 了 比较 重要 的 变化 时 ， 弱 实体 标签 也 应 该 发 生变 化 。 


注意 ， 原 始 服 务 器 一 定 不 能 为 两 个 不 同 的 实体 重用 一 个 特定 的 强 实体 标签 值 ， 或 者 
为 两 个 语义 不 同 的 实体 重用 一 个 特定 的 弱 实体 标签 值 。 缓 存 条 目 都 可 能 会 留存 任意 
长 的 时 间 ， 与 过 期 时 间 无 关 ， 有 人 可 能 希望 当 缓存 验证 条 目 时 ， 绝 对 不 会 再 次 使 用 
在 过 去 某 一 时 刻 获 得 的 验证 器 ， 这 种 愿望 可 能 不 太 现 实 。 


7.8.8 什么 时 候 应 该 使 用 实体 标签 和 最 近 修 改 日 期 

如 果 服 务 器 回 送 了 一 个 实体 标签 ，HTTP/1.1 客户 端 就 必须 使 用 实体 标签 验证 器 。 如 
果 服 务 器 只 回 送 了 一 个 Last-Modified 值 ， 客户 端 就 可 以 使 用 If-Modified-Since 
验证 。 如 果实 体 标 签 和 最 后 修改 日 期 都 提供 了 ， 客 户 端 就 应 该 使 用 这 两 种 再 验证 方 
3€, 这样 HTTP/1.0 和 HTTP/1.1 缓存 就 都 可 以 正确 响应 了 。 


除非 HTTP/1.1 原始 服务 器 无 法 生成 实体 标签 验证 器 ， 否 则 就 应 该 发 送 一 个 出 去 ， 
如 果 使 用 弱 实 体 标签 有 优势 的 话 ， 发 送 的 可 能 就 是 个 弱 实 体 标签 ， 而 不 是 强 实体 标 
签 。 而 且 ， 最 好 同时 发 送 一 个 最 近 修 改 值 。 
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如 果 HTTP/1.1 缓存 或 服务 器 收 到 的 请 求 既 带 有 If-Modified-Since, XHA XR 
标签 条 件 首部 ， 那 么 只 有 这 两 个 条 件 都 满足 时 ， 才 能 返回 304 Not Modified 响应 。 


7.9 控制 缓存 的 能 


服务 器 可 以 通过 HTTP 定义 的 几 种 方式 来 指定 在 文档 过 期 之 前 可 以 将 甚 缓存 多 长 时 
间 。 按 照 优 先 级 递减 的 顺序 ， 服 务 器 可 以 : 


° 附加 一 个 Cache-Control: no-store 首部 到 响应 中 去 ， 

° 附加 一 个 Cache-control: no-cache 首部 到 响应 中 去 ， 

° 附加 一 个 Cache-Control: must-revalidate 首部 到 响应 中 去 ， 
° 附加 一 个 Cache-Control: max-age 首部 到 响应 中 去 ， 

° 附加 一 个 Expires 日 期 首部 到 响应 中 去 ， 

。 不 附加 过 期 信息 ， 让 缓存 确定 自己 的 过 期 日 期 。 


本 市 描述 了 缓存 控制 首部 。 下 一 节 ， 也 就 是 7.10 市 介绍 了 如 何 为 不 同 的 内 容 分 配 不 
同 的 缓存 信息 。 











7.9.1 no-Store 与 no-Cache 响 应 首部 


HTTP/1.1 提供 了 几 种 限制 对 象 缓存 ， 或 限制 提供 已 缓存 对 象 的 方式 ， 以 维持 对 象 的 
新 鲜 度 。no-store 首部 和 no-cache 首部 可 以 防止 缓存 提供 未 经 证 实 的 已 缓存 对 象 ; 








Pragma: no-cache 
Cache-Control: no-store 
Cache-Control: no-cache 


标识 为 no-store 的 啊 应 会 禁止 缓存 对 响应 进行 复制 。 缓 存 通 常会 像 非 缓存 代理 服 
务 器 一 样 ， 向 客户 端 转发 一 条 no-store 响应 ， 然 后 删除 对 象 。 


标识 为 no-cache 的 响应 实际 上 是 可 以 存储 在 本 地 缓存 区 中 的 。 只 是 在 与 原始 服 
务 器 进行 新 鲜 度 再 验证 之 前 ， 缓 存 不 能 将 其 提供 给 客户 端 使 用 。 这 个 首部 使 用 do- 


not-serve-from-cache-without-revalidation 这 个 名 字 会 更 恰当 一 些 。 




















HTTP/1.1 中 提供 pragma: no-cache 首部 “是 为 了 兼容 于 HTTP/1.0+。 除 了 与 只 
理解 pragma: no-cache 的 HITP/1.0 应 用 程序 进行 交互 时 ，HTTP 1.1 应 用 程序 都 
应 该 使 用 Cache-Control: no-cache, 
































注 17: 从 技术 上 来 讲 ，Pragma :no-cache 首部 只 能 用 于 HTTP 请求 ， 但 在 实际 中 它 作为 扩展 首部 已 被 广 
泛 地 用 于 HTTP 请 求 和 响应 之 中 。 
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7.9.2 max-age 响 应 首部 

Cache-Control: max-age 首部 表示 的 是 从 服务 器 将 文档 传 来 之 时 起 ， 可 以 认为 此 
文档 处 于 新 鲜 状 态 的 秒 数 。 还 有 一 个 s-maxage 首部 (注意 maxage 的 中 间 没 有 连 
字符 ) ， 其 行为 与 max-age 类 似 ， 但 仅 适 用 于 共享 (公有 ) 缓存 : 





Cache-Control: max-age-3600 
Cache-Control: s-maxage=3600 


服务 器 可 以 请 求 缓存 不 要 缓存 文档 ， 或 者 将 最 大 使 用 期 设置 为 零 ， 从 而 在 每 次 访问 
的 时 候 都 进行 刷新 : 


Cache-Control: max-age=0 
Cache-Control: s-maxage=0 


7.9.3 Expires 响应 首部 

不 推荐 使 用 Expires 首部 ， 它 指定 的 是 实际 的 过 期 日 期 而 不 是 秒 数 。HTTP 设计 者 
后 来 认为 ， 由 于 很 多 服务 器 的 时 钟 都 不 同步 ， 或 者 不 正确 ， 所 以 最 好 还 是 用 剩余 秒 
数 ， 而 不 是 绝对 时 间 来 表示 过 期 时 间 。 可 以 通过 计算 过 期 值 和 日 期 值 之 间 的 秒 数 差 
来 计算 类 似 的 新 鲜 生 存 期 : 


Expires: Fri, 05 Jul 2002, 05:00:00 GMT 
有 些 服务 器 还 会 回 送 一 个 Expires :0 响应 首部 ， 试 图 将 文档 置 于 永远 过 期 的 状态 ， 


但 这 种 语法 是 非法 的 ， 可 能 给 某 些 软件 带 来 问题 。 应 该 试 着 支持 这 种 结构 的 输入 ， 
但 不 应 该 产生 这 种 结构 的 输出 。 








7.9.4 must-revalidate 响 应 首部 


可 以 配置 缓存 ， 使 其 提供 一 些 陈旧 (过 期 ) 的 对 象 ， 以 提高 性 能 。 如 果 原 始 服务 器 
希望 缓存 严格 遵守 过 期 信息 ， 可 以 在 原始 响应 中 附加 一 个 cache-control: must- 
revalidate 首部 。 





Cache-Control: must-revalidate 


Cache-Control: must-revalidate 响应 首部 告诉 缓存 ， 在 事先 没有 跟 原始 服务 
器 进行 再 验证 的 情况 下 ， 不 能 提供 这 个 对 象 的 陈旧 副本 。 缓 存 仍然 可 以 随意 提供 新 
鲜 的 副本 。 如 果 在 缓存 进行 must-revalidate 新 鲜 度 检查 时 ， 原 始 服务 器 不 可 
用 ,缓存 就 必须 返回 一 条 504 Gateway Timeout 错误 。 





7.9.5 ”试探 性 过 期 

AE WW HL Cache-Control: max-age 首部 ， 也 没有 Expires 首部 ， 缓 存 可 
以 计算 出 一 个 试探 性 最 大 使 用 期 。 可 以 使 用 任意 算法 ， 但 如 果 得 到 的 最 大 使 用 期 大 
于 24 小 时 ， 就 应 该 向 响应 首部 添加 一 个 Heuristic Expiration Warning (试探 性 过 期 
警告 ， 警 告 13) 首部 。 据 我 们 所 知 ， 很 少 有 浏览 器 会 为 用 户 提供 这 种 警告 信息 。 


LM-Factor 算法 是 一 种 很 常用 的 试探 性 过 期 算法 ， 如 果 文 档 中 包含 了 最 后 修改 日 期 ， 
就 可 以 使 用 这 种 算法 。LM-Factor 算法 将 最 后 修改 日 期 作为 依据 ， 来 估计 文档 有 多 
么 易 变 。 算 法 的 逻辑 如 下 所 示 。 


° 如 果 已 缓存 文档 最 后 一 次 修改 发 生 在 很 从 以前 ， 它 可 能 会 是 一 份 稳定 的 文档 ， 不 
太 会 突然 发 生变 化 ， 因 此 将 其 继续 保存 在 缓存 中 会 比较 安全 。 

。 如 果 已 缓存 文 挡 最 近 被 修改 过 ， 就 说 明 它 很 可 能 会 频繁 地 发 生变 化 ， 因 此 在 与 服 
务 器 进行 再 验证 之 前 ， 只 应 该 将 其 缓存 很 短 一段 时 间 。 

实际 的 LM-Factor 算法 会 计算 缓存 与 服务 器 对 话 的 时 间 跟 服务 器 声明 文档 最 后 被 修 


改 的 时 间 之 间 的 差 值 ， 取 这 个 间隔 时 间 的 一 部 分 ， 将 其 作为 缓存 中 的 新 鲜 度 持续 时 
间 。 下 面 是 LM-factor 算法 的 Perl 伪 代 码 : 

















$time since modify = max(0, $server Date - $server_Last_Modified); 
$server freshness limit - int($time since modify * $1m factor); 


7-16 以 图 形 方式 给 出 了 LM-factor 的 新 鲜 周 期 。 图 中 用 交叉 线 画 出 的 阴影 表示 的 
是 将 LM-factor 设置 为 0.2 计算 出 的 新 鲜 周 期 。 








获取 时 间 和 最 近 修改 时 间 之 间 
间隔 的 20% (LM-factor-0.2) ”已 缓存 副本 在 这 个 新 的 过 期 时 间 
— 








WWWWWAW F| B: A gr k BU 
h t 8 . 
最 近 修改 时 间 缓存 与 服务 器 TR 


对 话 的 时 间 











7-16 用 LM-factor 算法 计算 新 鲜 周期 


通常 人 们 会 为 试探 性 新 鲜 周 期 设置 上 限 ， 这 样 它们 就 不 会 变 得 太 大 了 。 尽 管 比较 保 
守 的 站 点 会 将 这 个 值 设置 为 一 天 ， 但 通常 站 点 会 将 其 设置 为 一 周 。 


如 果 最 后 修改 日 期 也 没有 的 话 ， 缓 存 就 没什么 信息 可 利用 了 。 缓 存 通常 会 为 没有 任 
何 新 鲜 周期 线索 的 文档 分 配 一 个 默认 的 新 鲜 周 期 (通常 是 一 个 小 时 或 一 天 )。 有 了 时， 
比较 保守 的 缓存 会 将 这 种 试探 性 新 鲜 生存 期 设置 为 0， 强 制 缓 存在 每 次 将 其 提供 给 
客户 端 之 前 ， 都 去 验证 一 下 这 些 数据 仍然 是 新 鲜 的 。 
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与 试探 性 新 鲜 计 算 有 关 的 最 后 一 点 是 一 一 它们 可 能 比 你 想象 的 要 常见 得 多 。 很 多 原始 服 
务 器 仍然 不 会 产 生 Expires 和 max-age 首部 。 选择 缓存 过 期 的 默认 时 间 时 要 特别 小 心 ! 


7.9.6 客户 端的 新 鲜 度 限制 

Web 浏览 器 都 有 Refresh (刷新 ) sk Reload ( 重 载 ) 按钮 ， 可 以 强制 对 浏览 器 或 
代理 缓存 中 可 能 过 期 的 内 容 进 行 刷新 。Refresh 按钮 会 发 布 一 个 附加 了 cache- 
Control 请 求 首部 的 GET 请 求 ， 这 个 请 求 会 强制 进行 再 验证 ， 或 者 无 条 件 地 从 服 
务 器 获取 文档 。Refresh 的 确切 行为 取决 于 特定 的 浏览 器 、 文 档 以 及 拦截 缓存 的 配置 。 


客户 端 可 以 用 Cache-Control 请 求 首部 来 强化 或 放松 对 过 期 时 间 的 限制 。 有 些 应 
用 程序 对 文档 的 新 鲜 度 要 求 很 高 (比如 人 工 刷 新 按钮 )， 对 这 些 应 用 程序 来 说 ， 客 
户 端 可 以 用 Cache-Control 首部 使 过 期 时 间 更 严格 。 另 一 方面 ， 作 为 提高 性 能 、 
可 靠 性 或 开支 的 一 种 折 瑞 方式 ， 客 户 端 可 能 会 放松 新 鲜 度 要 求 。 表 7-4 对 Cache- 
Control 请 求 指令 进行 了 总 结 。 











表 7-4 Cache-ControliÉckiB 3 
E < 目 的 

Cache-Control: max-stale 缓存 可 以 随意 提供 过 期 的 文件 。 如 果 指 定 了 参数 <s>, ERE 

Cache-Control: max-stale = «s» 时 间 内 ， 文 档 就 不 能 过 期 。 这 条 指令 放松 了 缓存 的 规则 

Cache-Control: min-fresh-«s» PÆRE <s> 秒 内 文档 要 保持 新 鲜 。 这 就 使 缓存 规则 更 加 严格 了 

Cache-Control: max-age = <s> 缓存 无 法 返回 缓存 时 间 长 于 <s> 秒 的 文档 。 这 条 指令 会 使 缓存 
规则 更 加 严格 ， 除 非 同时 还 发 送 了 max-stale 指令 ， 在 这 种 
情况 下 ， 使 用 期 可 能 会 超过 其 过 期 时 间 

































































Cache-Control: no-cache 除非 资源 进行 了 再 验证 ， 否 则 这 个 客户 端 不 会 接受 已 缓存 的 
Pragma: no-cache 资源 
Cache-Control: no-store 缓存 应 该 尽快 从 存储 器 中 删除 文档 的 所 有 痕迹 ， 因 为 其 中 可 能 

















会 包含 敏感 信息 


Cache-Control: only-if-cached 只 有 当 缓存 中 有 副本 存在 时 ， 客 户 端 才 会 获取 一 份 副 本 





7.9.7 注意 事项 
文档 过 期 系统 并 不 是 一 个 完美 的 系统 。 如 果 发 布 者 不 小 心 分 配 了 一 个 很 久之 后 的 过 期 
日 期 ， 在 文档 过 期 之 前 ， 她 要 对 文档 做 的 任何 修改 都 不 一 定 能 显示 在 所 有 缓存 中 。! 














注 18: 文档 过 期 采用 了 “生存 时 间 ” 技 术 ， 这 种 技术 用 于 很 多 因特网 协议 ， 比 如 DNS rh, 5 HTTP 一 样 ， 
如 果 发 布 了 一 个 很 久之 后 才 到 时 的 过 期 日 期 ， 然 后 发 现 需要 进行 修改 ，DNS 就 会 遇 到 麻烦 。 但 是 ， 
与 DNS 不 同 的 是 ，HTTP 为 客户 端 提 供 了 一 些 覆 盖 和 强制 重 载 机 制 。 
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因此 ， 很 多 发 布 者 都 不 会 使 用 很 长 的 过 期 日 期 。 而 且 ， 很 多 发 布 者 甚至 都 不 使 用 过 
期 日 期 ， 这 样 缓存 就 很 难 确 定 文档 会 在 多 长 时 间 内 保持 新 鲜 了 。 


7.10 ”设置 缓存 控制 

不 同 的 Web 服务 器 为 HTTP Cache-Control fl Expiration 首部 的 设置 提供 了 一 
些 不 同 的 机 制 。 本 节 简 要 介绍 了 流行 的 Apache Web 服务 器 是 怎样 支持 缓存 控制 的 。 
具体 细节 请 参见 你 的 Web 服务 器 文档 。 





7.10.1 控制 Apache 的 HTTP 首 部 


Apache Web 服务 器 提供 了 几 种 设置 HTTP 缓存 控制 首部 的 机 制 。 其 中 很 多 机 制 在 
默认 情况 下 都 没有 启动 一 一 你 要 启动 它们 (有 些 情况 下 先 要 获取 Apache 的 扩展 模 
块 )。 下 面 是 对 某 些 Apache 特性 的 简要 描述 。 


* mod headers 

通过 mod headers 模块 可 以 对 单独 的 首部 进行 设置 。 装 载 了 这 个 模块 ， 就 可 以 用 设置 
单个 HTTP 首部 的 指令 Apache 的 配置 文件 了 。 还 可 以 将 这 些 设置 与 Apache 
的 常用 表达 式 以 及 过 滤器 结合 在 一 起 使 用 ， 将 这 些 首 部 与 个 别 内 容 关联 起 来 。 这 里 
有 一 个 配置 实例 ， 这 个 例子 将 某 目 录 下 所 有 的 HTML 文件 都 标识 为 非 缓 存 的 : 

















<Files *.html> 
Header set Cache-control no-cache 
</Files> 
° mod_expires 

mod expires 模块 提供 的 程序 逻辑 可 以 自动 生成 带 有 正确 过 期 日 期 的 Expires Ë 
部 。 通 过 这 个 模块 ， 就 可 以 将 文档 的 过 期 日 期 设置 为 对 其 最 后 一 次 被 访问 之 后 或 
者 其 最 近 修 改 日 期 之 后 的 某 一 时 间 段 。 通 过 这 个 模块 可 以 为 不 同 的 文件 类 型 设 
置 不 同 的 过 期 日 期 ， 还 可 以 使 用 便捷 的 详尽 描述 信息 来 描述 其 缓存 能 力 ， 比 如 
“access plus 1 month ( 自 访问 之 后 起 1 个 月 )”。 这 里 有 几 个 例子 

ExpiresDefault A3600 

ExpiresDefault M86400 


ExpiresDefault "access plus 1 week" 
ExpiresByType text/html "modification plus 2 days 6 hours 12 minutes" 


* mod cern meta 

通过 mod cern meta 模块 可 以 将 一 个 包含 HTTP. 首部 的 文件 与 特定 的 对 象 联系 起 

人 启动 这 个 模块 时 ， 就 创建 了 一 组 “元 文件 ”， 每 个 需要 控制 的 文档 一 个 ， 而 
还 会 为 每 个 元 文件 添加 所 期 望 的 首部 。 
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7.10.2 通过 HTTP -EQUIV 控制 HTML 缓 存 


HTTP 服务 器 响应 首部 用 于 回 送 文档 的 到 期 信息 以 及 缓存 控制 信息 。Web 服务 器 与 
配置 文件 进行 交互 ， 为 所 提供 的 文档 分 配 正确 的 Cache-Control 首部 。 


为 了 让 作者 在 无 需 与 Web 服务 器 的 配置 文件 进行 交互 的 情况 下 ， 能 够 更 容易 地 为 所 
提供 的 HTML 文档 分 配 HTTP 首部 信息 ，HTML 2.0 定义 了 «META HTTP-EQUIV> 
标签 。 这 个 可 选 的 标签 位 于 HTML 文档 的 顶部 ， 定 义 了 应 该 与 文档 有 所 关联 的 
HTTP 首部 。 这 里 有 一 个 «META HTTP-EQUIV> 标签 设置 的 例子 ， 它 将 HTML 文档 
标记 为 非 缓冲 的 : 
«HTML» 
«HEAD» 
«TITLE»My Document«/TITLE» 


«META HTTP-EQUIV-"Cache-control" CONTENT-"no-cache"-» 
</HEAD> 





最 初 ，HTTP-EQUIV 标签 是 给 Web 服务 器 使 用 的 。 如 HTML RFC 1866 MR, Web 
服务 器 应 该 为 HTML 解析 <META HTTP-EQUIV> 标签 ， 并 将 规定 的 首部 插入 HTTP 
响应 中 : 


HTTP 服务 器 可 以 用 此 信息 来 处 理 文档 。 特 别 是 ， 它 可 以 在 为 请 求 此 文档 的 报 文 所 
发 送 的 响应 中 包含 一 个 首部 字段 ， 首部 名 称 是 从 HTTP-EQUIV 属性 值 中 获取 的 ， 首 
部 值 是 从 CONTENT 属性 值 中 获取 的 。 


不 幸 的 是 ， 支 持 这 个 可 选 特性 会 增加 服务 器 的 额外 负载 ， 这 些 值 也 只 是 静态 的 ， 而 
且 它 只 支持 HIML， 不 支持 很 多 其 他 的 文件 类 型 ， 所 以 很 少 有 Web 服务 器 和 代理 支 
持 此 特性 。 


但 是 ， 有 些 浏览 器 确实 会 解析 并 在 HTML 内 容 中 使 用 HTTP-EQUIV 标签 ， 像 对 待 真 
的 HTTP 首部 那样 来 处 理 敬 入 式 首部 (参见 图 7-17)。 这 样 的 效果 并 不 好 ， 因 为 支 
Fe HTTP-EQUIV 标签 的 HTML 浏览 器 使 用 的 Cache-control 规则 可 能 会 与 拦截 代 
理 缓存 所 用 的 规则 有 所 不 同 。 这 样 会 使 缓存 的 过 期 处 理 行为 发 生 混乱 。 

















AZ, <META HTTP-EQUIV> 标签 并 不 是 控制 文档 缓存 特性 的 好 方法 。 通 过 配置 正 
确 的 服务 器 发 出 HTTP 首部 ， 是 传送 文档 缓存 控制 请 求 的 唯一 可 靠 的 方法 。 

















可 以 对 某 些 HTTP 服 务 器 进行 配置 ， 使 其 为 HTMI 文 
件 解 析 一 些 特殊 的 <METRA HTTP-EQUIV> 标 多 
(HTML 文档 中 的 ) 元 数据 标签 描述 了 作者 希望 客户 




















端 接收 的 HTTP 首 部 。 





但 是 ， 大 部 分 Web 服 务 器 并 不 处 理 HTTP-EQUIV 标 签 ， 
会 这 么 做 的 代理 则 更 少 。 这 样 ， 客 户 端 缓存 就 会 收 到 
代理 缓存 并 不 一 定 能 看 得 到 的 cache-control 命 令 。 


HTML 请 求 


HTML 文件 











GET /xyz.html HTTP/1.0 


«HTML» 

«HEAD» 

«META HTTP-EQUIV- " Cache- control" 
CONTENT- " max-age-3600"» 

«META HTTP-EQUIV-"Content-type" 
CONTENT-"text/html; charset-utf-8"» 

«/HEAD» 


«BODY» 

Welcome to XYZ Industries, a 
«B»leader«/B» in mechanical drilling 
machines for 30 years. Our new line of 
10096 automated manufacturing tools sets 
the standard for CAM, at a suprisingly 
low price. 

</BODY> 














: 








HTTP/1.0 200 OK 

Date: Fri, 07 Apr 2002, 19:21:13 GMT 
Content-length: 124 

Cache-control: max-age-3600 
Content-type: text/html; charset-utf-8 


«HTML» 

«HEAD» 

«META HTTP-EQUIV-"Cache-control" 
CONTENT-"max-age-3600" 

«META HTTP-EQUIV-"Content-type" 
CONTENT-"text/html; charset-utf-8" 

</HEAD> 


<BODY> 
Welcome to XYZ Industries, a <B>leader</B> 
in mechanical drilling machines for... 











服务 器 


HTTP 响 应 
有 些 服务 器 会 在 响应 首部 插入 HTTP-EQUIV 














特有 的 首部 ， 传 送 给 代 到 





E, 有些 服 务 器 则 不 会 。 








图 7-17 ”大 多 数 软件 都 会 忽略 HTTP-EQUIV 标签 ， 所 以 这 些 标签 可 能 会 带 来 一 些 问 题 


7.11 详细 算法 


HTTP 规范 提供 了 一 个 详细 ， 但 有 点 儿 含糊 不 清 而 且 经 常会 让 人 混 请 的 算法 ， 来 计 
算 文档 的 使 用 期 以 及 缓存 的 新 鲜 度 。 本 市 会 对 HTTP 的 新 鲜 度 计算 算法 进行 详细 的 
讨论 (参见 图 7-12 中 那个 “足够 新 鲜 ? ”次 形 框 )， 并 对 此 算法 的 动机 进行 解释 。 


本 闻 最 适用 于 那些 研究 缓存 内 部 机 制 的 人 。 为 了 便于 说 明 HTTP 规范 中 的 内 容 ， 我 
们 使 用 了 Perl 伪 代 码 。 如 果 对 计算 缓存 过 期 时 间 的 公式 中 那些 楷 复 的 细 闻 不 感 兴 








的 话 ， 可 以 跳 过 这 一 节 。 
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7.11.1 使 用 期 和 新 鲜 生存 期 

为 了 分 辨 已 缓存 文档 是 否 足够 新 鲜 ， 缓 存 只 需要 计算 两 个 值 : 已 缓存 副本 的 使 用 期 
(age)， 和 已 缓存 副本 的 新 鲜 生 存 期 (freshness lifetime)。 如 果 已 缓存 副本 的 时 长 小 
于 新 鲜 生 存 期 ， 就 说 明 副 本 足够 新 鲜 ， 可 以 使 用 。 用 Perl 表示 为 : 








$is fresh enough = ($age < $freshness_lifetime); 


文档 的 使 用 期 就 是 自从 服务 器 将 其 发 送出 来 (或 者 最 后 一 次 被 服务 器 再 验证 ) 之 后 
“ 老 去 ”的 总 时 间 。” 缓 存 可 能 不 知道 文档 响应 是 来 自 上 游 缓存 ， 还 是 来 自 服务 器 
的 ， 所 以 它 不 能 假设 文档 是 最 新 的 。 它 必须 根据 显 式 的 age 首部 (优先)， 或 者 通 
过 对 服务 器 生成 的 Date 首部 的 处 理 ， 来 确定 文档 的 使 用 期 。 


文档 的 新 鲜 生存 期 表明 ， 已 缓存 副本 在 经 过 多 长 时 间 之 后 ， 就 会 因 新 鲜 度 不 足 而 无 
法 再 向 客户 端 提供 了 。 新 鲜 生存 期 考虑 了 文档 的 过 期 日 期 以 及 客户 端 可 能 请 求 的 
任何 新 鲜 度 覆盖 范围 。 


有 些 客户 端 可 能 愿意 接受 稍微 有 些 过 期 的 文档 〈 使 用 Cache-Control: max-stale 
首部 )。 有 些 客户 端 可 能 无 法 接受 会 在 近期 过 期 的 文档 (使 用 cache-Control: 
min-fresh 首部 )。 缓 存 将 服务 器 过 期 信息 与 客户 端的 新 鲜 度 要 求 结合 在 一 起 ， 以 
确定 最 大 的 新 鲜 生 存 期 。 


7.11.2 ”使 用 期 的 计算 

响应 的 使 用 期 就 是 服务 器 发 布 响应 (或 服务 器 对 其 进行 了 再 验证 ) 之 后 经 过 的 总 
时 间 。 使 用 期 包含 了 响应 在 因特网 路 由 器 和 网 关中 游荡 的 时 间 ， 在 中 间 节 点 缓存 
中 存储 的 时 间 ， 以 及 响应 在 你 的 缓存 中 停留 的 时 间 。 例 7-1 给 出 了 使 用 期 计算 的 
伪 代 码 。 


例 7-1 HTTP/1.1 使 用 期 计算 算法 计算 了 已 缓存 文档 的 总 体 使 用 期 















































$apparent age = max(0, $time got response - $Date header value); 
$corrected apparent age = max($apparent age, $Age header value); 
$response delay estimate = ($time got response - $time issued request); 


$age when document arrived at our cache - 
$corrected apparent age + $response delay estimate; 
$how long copy has been in our cache = $current time - $time got response; 





$age = $age when document arrived at our cache + 
$how long copy has been in our cache; 








ik 19: 记 住 ， 服 务 器 上 总 是 有 所 有 文档 的 最 新 版 本 的 。 
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HTTP 使 用 期 计算 的 细节 有 点 儿 环 手 ， 但 其 基本 概念 很 简单 。 响 应 到 达 缓 存 时 ， 缓 
存 可 以 通过 查看 Date 首部 或 Age 首部 来 判断 响应 已 使 用 的 时 间 。 缓 存 还 能 记录 下 
文档 在 本 地 缓存 中 的 停留 时 间 。 把 这 些 值 加 在 一 起 ， 就 是 响应 的 总 使 用 期 。HTTP 
用 一 些 魔法 对 时 钟 偏差 和 网 络 时 延 进行 了 补偿 ， 但 基本 计算 非常 简单 : 











$age = $age when document arrived at our cache + 
$how long copy has been in our cache; 


缓存 可 以 很 方便 地 判断 出 已 缓存 副本 已 经 在 本 地 缓存 了 多 长 时 间 Goo j RII f 
记 问 题 )， 但 很 难 确 定 响应 抵达 缓存 时 的 使 用 期 ， 因 为 不 是 所 有 服务 器 的 时 钟 都 是 
同步 的 ， 而 且 我 们 也 不 知道 响应 到 过 哪里 。 完 善 的 使 用 期 计算 算法 会 试 着 对 此 进行 
补偿 。 














1. 表面 使 用 期 是 基于 Date 首 部 的 

如 果 所 有 的 计算 机 都 共享 同样 的 、 完 全 精确 的 时 钟 ， 已 缓存 文档 的 使 用 期 就 可 以 是 
文档 的 “表面 使 用 期 ”一 一 当前 时 间 减 去 服务 器 发 送 文档 的 时 间 。 服 务 器 发 送 时 间 
就 是 Date 首部 的 值 。 最 简单 的 起 始 时 间 计 算 可 以 直接 使 用 表面 时 间 : 





šapparent_age = $time got response - $Date header value; 

$age when document arrived at our cache = $apparent age; 
但 并 不 是 所 有 的 时 钟 都 实现 了 良好 的 同步 。 客 户 端 和 服务 器 时 钟 之 间 可 能 有 数 分 钟 
的 差别 ， 如 果 时 钟 没 有 设置 好 的 话 ， 其 至 会 有 数 小 时 或 数 天 的 区 别 。” 


Web 应 用 程序 ， 尤 其 是 缓存 代理 ， 要 做 好 与 时 间 值 有 很 大 差异 的 服务 器 进行 交互 
的 准备 。 这 种 问题 被 称 为 时 钟 偏差 (clock skew) 一 一 两 台 计 算 机 时 钟 设置 的 不 同 。 
由 于 时 钟 偏差 的 存在 ， 表 面 使 用 其 有 时 会 不 太 准 确 ， 而 且 有 时 会 是 负 的 。 


如 果 使 用 期 是 负 的 ， 就 将 其 设置 为 零 。 我 们 还 可 以 对 表面 使 用 期 进行 完整 性 检查 ， 
以 确定 它 没 有 大 得 令 人 不 可 思议 ， 不 过 ， 实 际 上 ， 表 面 使 用 期 可 能 并 没 错 。 我 们 
可 能 在 与 一 个 将 文档 缓存 了 很 久 的 父 缓存 对 话 (缓存 可 能 还 存储 了 原始 的 Date 首 
部 ) : 








šapparent_age = max(0, $time got response - $Date header value); 
$age when document arrived at our cache = $apparent age; 


要 明确 Date 首部 描述 的 是 原始 服务 器 的 日 期 。 代 理 和 缓存 一 定 不 能 修改 这 个 日 期 | 








注 20: HTTP 规范 建议 客户 端 、 服 务 器 和 代理 使 用 NTP 这 样 的 时 间 同 步 协议 来 强制 使 用 统一 的 时 间 基 准 。 
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2. 逐 跳 使 用 期 的 计算 

这 样 就 可 以 去 除 时 钟 偏差 造成 的 负数 使 用 期 了 ， 但 对 时 钟 偏差 给 精确 性 带 来 的 整体 
偏差 ， 我 们 能 做 的 工作 很 少 。 文 档 经 过 代理 和 缓存 时 ，HTTP/1.1 会 让 每 台 设 备 都 将 
相对 使 用 期 累加 到 age 首部 中 去 ， 以 此 来 解决 缺乏 通用 同步 时 钟 的 问题 。 这 种 方式 
并 不 需要 进行 跨 服务 器 的 、 端 到 端的 时 钟 对 比 。 


文档 经 过 代理 时 ，Age 首部 值 会 随 之 增加 。 使 用 HTTP/1.1 的 应 用 程序 应 该 在 Age 
首部 值 中 加 上 文档 在 每 个 应 用 程序 和 网 络 传输 过 程 中 停留 的 时 间 。 每 个 中 间 应 用 程 
序 都 可 以 很 容易 地 用 本 地 时 钟 计 算出 文档 的 停留 时 间 。 


但 响应 链 中 所 有 的 非 HTTP/1.1 设备 都 无 法 识别 Age 首部 ， 它 们 会 将 首部 未 经 修改 
地 转发 出 去 ， 或 者 将 其 删除 掉 。 因 此 ， 在 HTTP/1.1 得 到 普遍 应 用 之 前 ，Age 首部 
都 将 是 低估 了 的 相对 使 用 期 。 


除了 基于 Date 计算 出 来 的 Age 之 外 ， 还 使 用 了 相对 Age 值 ， 而 且 不 论 是 跨 服务 器 
的 Date 值 ， 还 是 计算 出 来 的 Age 值 都 可 能 被 低 佑 ， 所 以 会 选择 使 用 估计 出 的 两 个 
Age 值 中 最 保守 的 那个 (最 保守 的 值 就 是 最 老 的 Age 值 )。 使 用 这 种 方式 ，HTTP 就 
能 容忍 Age 首部 存在 的 错误 ， 尽 管 这 样 可 能 会 搞 错 究 竞 哪 边 更 新 鲜 : 











$apparent age = max(0, $time got response - $Date header value); 
$corrected apparent age = max($apparent age, $Age header value); 
$age when document arrived at our cache = $corrected apparent age; 


3. 对 网 络 时 延 的 补偿 

事务 处 理 可 能 会 很 慢 。 这 是 使 用 缓存 的 主要 动因 。 但 对 速度 非常 慢 的 网 络 ， 或 者 那 
些 过 载 的 服务 器 来 说 ， 如 果 文 档 在 网 络 或 服务 器 中 阻塞 了 很 长 时 间 ， 相 对 使 用 期 的 
计算 可 能 会 极 大 地 低估 文档 的 使 用 期 。 


Date 首部 说 明了 文档 是 在 什么 时 候 离开 原始 服务 器 的 ，” 但 并 没有 说 明文 档 在 到 组 
存 的 传输 过 程 中 花费 了 多 长 时 间 。 如 果 文 档 的 传输 经 过 了 一 长 串 的 代理 和 父 缓存 ， 
网 络 时 延 可 能 会 相当 大 。” 

没有 什么 简便 的 方法 可 以 用 来 测量 从 服务 器 到 缓存 的 单 向 网 络 时 延 ， 但 往返 时 延 则 
比较 容易 测量 。 缓 存 知道 它 请 求 文档 的 时 间 ， 以 及 文档 抵达 的 时 间 。HTTP/1.1 会 在 
这 些 网 络 时 延 上 加 上 整个 往返 时 延 ， 以 便 对 其 进行 保守 地 校正 。 这 个 从 缓存 到 服务 

















注 21: 注意 ， 如 果 文 档 来 自 一 个 父 缓存 ， 而 不 是 原始 服务 器 ，Date 首部 反映 的 仍 是 原始 服务 器 ， 而 不 是 父 
缓存 上 的 日 期 。 

注 22: 实际 上 , 这 个 时 延 不 会 高 于 儿 十 分 之 一 秒 (不 然 用户 就 会 放弃 ), 但 即使 是 对 生存 期 很 短 的 对 象 来 说 ， 
HTTP 的 设计 者 也 希望 使 用 尽 可 能 精确 的 过 期 时 间 。 
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器 再 到 缓存 的 时 延 高 估 了 从 服务 器 到 缓存 的 时 延 ， 但 它 是 保守 的 。 如 果 出 错 了 ， 它 
只 会 使 文档 看 起 来 比 实际 使 用 期 要 老 ， 并 引发 不 必要 的 再 验证 。 计 算是 这 样 进行 的 : 


2N 


šapparent_age = max(0, $time_got_response - $Date header value); 
$corrected apparent age = max($apparent age, $Age_header_value); 
$response delay estimate - ($time got response - $time issued request); 


$age when document arrived at our cache = 
$corrected apparent age + $response delay estimate; 


7.11.3 完整 的 使 用 期 计算 算法 

上 一 节 说 明了 当 HTTP 所 承载 的 文档 抵达 缓存 时 ， 如 何 计 算 其 使 用 期 。 只 要 将 这 条 
响应 存储 到 缓存 中 去 ， 它 就 会 进一步 老化 。 当 对 缓存 中 文档 的 请 求 到 达 时 ， 我 们 需 
要 知道 文档 在 缓存 中 停留 了 多 长 的 时 间 ， 这 样 才能 计算 文档 现在 的 使 用 期 : 





$age = $age when document arrived at our cache + 
$how long copy has been in our cache; 


EE, 这 样 就 有 了 例 7-1 中 给 出 的 完整 的 HTTP/1.1 使 用 期 计算 算法 。 这 就 是 简单 的 
秒 记 问题 了 一 一 我 们 知道 了 文档 是 什么 时 候 到 达 缓 存 的 ($time_got_reponse)， 
也 知道 当前 请 求 是 什么 时 候 到 达 的 (刚才 )， 这 样 停留 时 间 就 是 两 者 之 差 了 。 所 有 这 
些 都 以 图 形 方式 显示 在 图 7-18 中 了 。 
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图 7-18 已 缓存 文档 的 使 用 期 包括 在 网 络 和 缓存 中 停留 的 时 间 
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7.11.4 新 鲜 生 存 期 计算 

回想 一 下 ， 我 们 是 在 想 办 法 和 弄 清楚 已 缓存 文档 是 否 足够 新 鲜 ， 是 否 可 以 提供 给 客户 
端 。 要 回答 这 个 问题 ， 就 必须 确定 已 缓存 文档 的 使 用 期 ， 并 根据 服务 器 和 客户 端 限 
制 来 计算 新 鲜 生 存 期 。 我 们 刚刚 解释 了 如 何 计算 使 用 期 ， 现 在 我 们 来 看 看 新 鲜 生 存 
期 的 计算 。 


文档 的 新 鲜 生 存 期 说 明了 在 文档 不 再 新 鲜 ， 无 法 提供 给 某 个 特定 的 客户 端 之 前 能 够 停 
留 多 入 。 新 鲜 生 存 期 取决 于 服务 器 和 客户 端的 限制 。 服 务 器 上 可 能 有 一 些 与 文档 的 出 
版 变化 率 有 关 的 信息 。 那 些 非常 稳定 的 已 归档 报告 可 能 会 在 数 年 内 保持 新 鲜 。 期 刊 可 
能 只 在 下 一 期 的 出 版 物 出 来 之 前 的 剩余 时 间 内 有 效 一 一 下 一 周 ， 或 是 明 早 6 点 。 
客户 端 可 能 有 些 其 他 指标 。 如 果 稍 微 有 些 过 期 的 内 容 速度 更 快 的 话 ， 它 们 可 能 也 愿 
意 接受 ,或 者 它们 可 能 希望 接收 最 新 的 内 容 。 缓 存 是 为 用 户 服务 的 。 必 须要 满足 他 
们 的 要 求 。 


7.11.5 ”完整 的 服务 器 一 一 新 鲜 度 算法 
例 7-2 给 出 了 一 个 用 于 计算 服务 器 新 鲜 度 限制 的 Perl 算法 。 它 会 返回 文档 仍 由 服务 
器 提供 时 所 能 到 达 的 最 大 使 用 期 。 


例 7-2 服务 器 新 鲜 度 限制 的 计算 
sub server freshness limit 


{ 




















local($heuristic,$server freshness limit,$time since last modify); 
Sheuristic = 0; 
if ($Max Age value set) 


$server freshness limit = $Max Age value; 


) 


elseif ($Expires value set) 
$server freshness limit = $Expires value - $Date value; 


elseif ($Last Modified value set) 
t 
$time since last modify = max(0, $Date_value - 
$Last Modified value); 
$server freshness limit = int ($time since last modify * 
$1m factor); 
S$Sheuristic = 1; 
) 


else 





$server freshness limit = $default cache min lifetime; 
$heuristic = 1; 


) 


if ($heuristic) 


{ 


if ($server freshness limit > $default cache max lifetime 


) 
( $server freshness limit = $default cache max lifetime; } 
if ($server freshness limit « $default cache min lifetime) 
( $server freshness limit = $default cache min lifetime; } 


) 


return($server freshness limit); 
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现在 ， 我 们 来 看 看 客户 端 怎样 修正 服务 器 为 文档 指定 的 使 用 期 限制 。 例 7-3 显示 了 
一 个 Perl 算法 ， 此 算法 获取 了 服务 器 的 新 鲜 度 限制 并 根据 客户 端的 限制 对 其 进行 修 
改 。 它 会 返回 一 个 最 大 使 用 期 ， 这 是 在 无 需 再 次 验证 ， 仍 由 缓存 提供 文档 的 前 提 下 ， 
文档 的 最 大 生存 时 间 。 








例 7-3 客户 端 新 鲜 度 限制 的 计算 
sub client modified freshness limit 


( 


$age limit = server freshness limit( ); ## From Example 7-2 


if ($Max Stale value set) 


{ 


if ($Max Stale value == $INT MAX) 

{ $age limit = $INT MAX; } 

else 

{ $age limit = server freshness limit( ) + $Max Stale value; ] 


) 


if ($Min Fresh value set) 


t 

šage_limit = min(šage_limit, server freshness limit( ) - 
$Min Fresh value set); 

) 


if ($Max Age value set) 


t 
) 


$age limit = min($age limit, $Max Age value); 


) 


整个 进程 中 包含 两 个 变量 : 文档 的 使 用 期 及 其 新 鲜 度 限制 。 如 果 使 用 期 小 于 新 鲜 度 
限制 ， 就 说 明文 档 “ 足 够 新 鲜 ”。 例 7-3 中 的 算法 只 是 考虑 了 服务 器 的 新 鲜 度 限制 ， 
并 根据 附加 的 客户 端 限制 对 其 进行 了 调整 。 希 望 通过 本 市 的 介绍 能 使 在 HTTP 规范 
中 描述 的 比较 微妙 的 过 期 算法 更 清晰 一 些 。 
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7.12 缓存 和 广告 


读 到 这 里 ， 你 一 定 已 经 意识 到 缓存 可 以 提高 性 能 并 减少 流量 。 知 道 缓存 可 以 帮助 用 
户 ， 并 为 用 户 提 供 更 好 的 使 用 体验 ， 而 且 缓 存 也 可 以 帮助 网 络 运 营 商 减少 流量 。 


7.42.4. 发 布 广告 者 的 两 难处 境 

你 可 能 认为 内 容 提 供 商 会 喜欢 缓存 。 毕 竞 ， 如 果 到 处 都 是 缓存 的 话 ， 内 容 提供 商 就 
不 需要 购买 大 型 的 多 处 理 器 Web 服务 器 来 满足 用 户 需求 了 一 一 他 们 不 需要 付 过 高 的 
网 络 服务 费 ， 一 遍 一 遍地 向 用 户 发 送 同样 的 数据 。 更 好 的 一 点 是 ， 缓 存 可 以 将 那些 
漂亮 的 文章 和 广告 以 更 快 ， 甚 至 更 好 看 的 方式 显示 在 用 户 的 显示 器 上 ， 鼓 励 他 们 去 
浏览 更 多 的 内 容 ， 看 更 多 的 广告 。 这 就 是 内 容 提供 商 所 希望 的 ! 吸引 更 多 的 眼球 和 
更 多 的 广告 ! 


但 这 就 是 困难 所 在 。 很 多 内 容 提供 商 的 收益 都 是 通过 广告 实现 的 一 一 具体 来 说 ， 每 
向 用 户 显示 一 次 广告 内 容 ， 内 容 提 供 商 就 会 得 到 相应 的 收益 。( 可 能 还 不 到 一 两 便 
E, 但 如 果 一 天 显示 数 百 万 条 广告 的 话 ， 这 些 钱 就 会 蕉 加 起 来 ! ) 这 就 是 缓存 的 问 
题 一 一 它们 会 向 原始 服务 器 隐藏 实际 的 访 癌 次数。 如 果 缓 存 工作 得 很 好 ， 原 始 服务 
器 可 能 根本 收 不 到 任何 HTTP 访问 ， 因 为 这 些 访问 都 被 因特网 缓存 吸收 了 。 但 如 果 
你 的 收益 是 基于 访问 次 数 的 话 ， 你 就 高 兴 不 起 来 了 。 


7.12.2 发布 者 的 响应 

现在 ， 广 告 商会 使 用 各 种 类 型 的 “缓存 清除 ”技术 来 确保 缓存 不 会 窃取 他 们 的 命中 
流量 。 他 们 会 在 内 容 上 加 上 no-cache 首部 。 他 们 会 通过 CGI 网 关 提 供 广告 。 还 会 
在 每 次 访问 时 重 写 广告 URL。 
这 些 缓存 清除 技术 并 不 仅 用 于 代理 缓存 。 实 际 上 ， 现 在 主要 将 其 用 于 每 个 Web 浏览 
器 中 都 启用 了 的 缓存 。 但 是 ， 如 果 某 些 内 容 提 供 商 维护 其 命中 率 的 行为 大 过 火 了 ， 
就 会 降低 缓存 为 其 站 点 带 来 的 积极 作用 。 

理想 情况 下 ， 内 容 提供 商会 让 缓存 吸收 其 流量 ， 而 缓存 会 告诉 内 容 提供 商 它们 拦截 
了 多 少 次 命中 。 现 在 ， 缓 存 有 好 几 种 方式 可 以 做 到 这 一 点 。 

一 种 解决 方案 就 是 配置 缓存 ， 每 次 访问 时 都 与 原始 服务 器 进行 再 验证 。 这 样 ， 每 次 
访问 时 都 会 将 命中 推 向 原始 服务 器 ， 但 通常 不 会 传送 任何 主体 数据 。 当 然 ， 这 样 会 
降低 事务 处 理 的 速度 。” 

































































ik 23. 有 些 缓存 支持 这 种 再 验证 的 变 体形 式 , 在 这 种 方式 中 , 它们 可 以 在 后 台 发 起 条 件 GET 或 HEAD 请 求 。 
用 户 不 会 感觉 到 时 延 ， 但 这 个 请 求 会 触发 对 原始 服务 器 的 离线 访问 。 这 是 一 种 改进 方式 ， 但 这 种 方 
式 加 重 了 缓存 的 负荷 ， 极 大 地 增加 了 流 经 网 络 的 流量 。 
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7.12.3 ”日志 迁移 

理想 的 解决 方案 是 不 需要 将 命中 传递 给 服务 器 的 。 毕 竟 ， 缓 存 就 可 以 记录 下 所 有 的 
命中 。 缓 存 只 要 将 命中 日 志 发 送 给 服务 器 就 行 了 。 实 际 上 ， 为 了 保持 内 容 提 供 商 们 
的 满意 度 ， 有 些 大 型 缓存 的 提供 商 已 经 在 对 缓存 日 志 进 行人 工 处 理 ， 并 将 其 传送 给 
受 影响 的 内 容 提供 商 了 。 

但 是 ， 命 中 日 志 很 大 ， 很 难 移动 。 而 缓存 日 志 并 没有 被 标准 化 或 被 组 织 成 独立 的 日 
志 ， 以 传送 给 单独 的 内 容 提供 商 。 而 且 ， 这 里 面 还 存在 着 认证 和 隐私 问题 。 

已 经 有 一 些 高 效 (和 不 那么 高 效 的 ) 日 志 分 发 策略 的 建议 了 。 但 还 没有 哪个 建议 成 
就 到 足以 为 Web 软件 厂商 采用 。 很 多 建议 都 非常 复杂 ， 需 要 联合 商业 伙伴 才能 实 
现 。” 有 几 家 联合 厂商 已 经 开始 开发 广告 收入 改造 工程 的 支撑 框架 了 。 


7.12.4 命中 计数 和 使 用 限制 

RFC 2227, “HTTP 的 简单 命中 计数 和 使 用 限制 ”中 定义 了 一 种 简单 得 多 的 方案 。 这 
个 协议 向 HTTP 中 添加 了 一 个 称 为 Meter 的 首部 ， 这 个 首部 会 周期 性 地 将 对 特定 
URL 的 命中 次 数 回 送 给 服务 器 。 通 过 这 各 方式， 服务器 可 以 从 缓存 周期 性 地 获取 对 
已 缓存 文档 命中 次 数 的 更 新 。 


而 且 ， 服 务 器 还 能 控制 在 缓存 必须 向 服务 器 汇报 之 前 ， 其 中 的 文档 还 可 以 使 用 多 少 
次 ,或 者 为 缓存 文档 设置 一 个 时 钟 超时 值 。 这 种 控制 方式 被 称 为 使 用 限制 ， 通 过 这 
种 方式 ， 服 务 器 可 以 对 缓存 向 原始 服务 器 汇报 之 前 ， 已 缓存 资源 的 使 用 次 数 进行 
控制 。 


我 们 将 在 第 21 章 详细 介绍 RFC 2227。 


7.13 更 多 信息 


更 多 有 关 缓 存 的 信息 ， 请 参见 以 下 参考 资源 。 


























° http://www.w3.org/Protocols/rfc2616/rfc2616.txt 
RFC 2616, 由 R. Fielding, J. Gettys, J. Mogul. H. Frystyk, L. Mastinter, P. 
Leach #H T. Berners-Lee 编写 的 “Hypertext Transfer Protocol", 


° Web Caching ((Web 缓存 》) 
Duane Wessels 2$ 55, O'Reilly & Associates 公司 出 版 。 





注 24: 已 经 启动 了 几 个 商业 项 目 ， 在 尝试 开发 综合 了 缓存 和 日 志 功 能 的 全 球 性 解决 方案 。 
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* http://www.ietf.org/rfc/rfc3040.txt 
RFC 3040, “Internet Web Replication and Caching Taxonomy” (“BR Web 复 
制 与 缓存 分 类 法 ”)。 


* Web Proxy Servers (《Web 代理 服务 器 》) 
Ari Luotonen 编写 ，Prentice Hall 计算 机 图 书 。 








* http://www ietf.org/rfc/rfc3143.txt 
RFC 3143, “Known HTTP Proxy/Caching Problems" (“41h HTTP 代理 
问题 ”)。 





FE 


/缓存 


° http://www.squid-cache.org 











196 Squid Web 代理 缓存 。 
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事实 证 明 ，Web 是 一 种 强大 的 内 容 发 布 工具 。 随 着 时 间 的 流逝 ， 人 们 已 经 从 只 在 网 
上 发 送 静 态 的 在 线 文档 ， 发 展 到 共享 更 复杂 的 资源 ， 比 如 数据 库 内 容 或 动态 生成 的 
HTML 页 面 。Web 浏览 器 这 样 的 HTTP 应 用 程序 为 用 户 提供 了 一 种 统一 的 方式 来 访 
问 因特网 上 的 内 容 。 


HTTP 也 已 成 为 应 用 程序 开发 者 的 一 种 基本 构造 模块 ， 开 发 者 们 可 以 在 HTTP EIÑ 
回 其 他 的 协议 内 容 〈 比 如 ， 可 以 将 其 他 协议 的 流量 包 囊 在 HTTP rh, JH HTTP iÑ 
过 隧道 或 中 继 方 式 将 这 些 流 量 传 过 公司 的 防火 墙 )。Web 上 所 有 的 资源 都 可 以 使 
用 HTTP 协议 ， 而 且 其 他 应 用 程序 和 应 用 程序 协议 也 可 以 利用 HTTP 来 完成 它们 的 
任务 。 


本 章 简 要 介绍 了 一 些 开 发 者 用 HTTP 访问 不 同 资源 的 方法 ， 展 示 了 开发 者 如 何 将 
HTTP 作为 框架 局 动 其 他 协议 和 应 用 程序 通信 。 


本 章 会 讨论 ， 


。 在 HTTP 和 其 他 协议 及 应 用 程序 之 间 起 到 接口 作用 的 网 关 ， 
° 允许 不 同类 型 的 Web 应 用 程序 互相 通信 的 应 用 程序 接口 ， 
。 允许 用 户 在 HTTP 连接 上 发 送 非 HTTP 流量 的 隧道 ， 

° 作为 一 种 简化 的 HTTP 代理 ,一 次 将 数据 转发 一 跳 的 中 继 。 


8.1 网 天 


HTTP 扩展 和 接口 的 发 展 是 由 用 户 需 求 驱动 的 。 要 在 Web 上 发 布 更 复杂 资源 的 需求 
出 现时 ， 人 们 很 快 就 明确 了 一 点 : 单个 应 用 程序 无 法 处 理 所 有 这 些 能 想到 的 资源 。 


为 了 解决 这 个 问题 ， 开 发 者 提出 了 网 关 (gateway) 的 概念 ， 网 关 可 以 作为 某 种 翻译 
器 使 用 ， 它 抽象 出 了 一 种 能 够 到 达 资 源 的 方法 。 网 关 是 资源 和 应 用 程序 之 间 的 粘 合 
剂 。 应 用 程序 可 以 〈 通 过 HTTP 或 其 他 已 定义 的 接口 ) 请 求 网 关 来 处 理 某 条 请 求 ， 
网 关 可 以 提供 一 条 响应 。 网 关 可 以 向 数据 库 发 送 查询 语句 ， 或 者 生成 动态 的 内 容 ， 
就 像 一 个 门 一 样 : 进去 一 条 请 求 ， 出 来 一 个 响应 。 

图 8-1 显示 的 是 一 种 资源 网 关 。 在 这 里 ，Joe 的 五 金 商店 服务 器 就 是 作为 连接 数据 库 
内 容 的 网 关 使 用 的 一 一 注意 ， 客 户 端 只 是 在 通过 HTTP 请 求 资源 ， 而 Joe 的 五 金 商 
店 的 服务 器 在 与 网 关 进 行 交 互 以 获取 资源 。 

有 些 网 关 会 自动 将 HTTP 流量 转换 为 其 他 协议 ， 这 样 HTTP 客户 端 无 需 了 解 其 他 协 
议 ， 就 可 以 与 其 他 应 用 程序 进行 交互 了 (参见 图 8-2). 
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客户 端 在 请 求 http://www.joes-hardware.com/query-db.cgi?newproducts 
请 求 报 文 


GET /query-db.cgi?newproducts HTTP/1.1 
Host: www.joes-hardware.com 

















Accept: * 
Mp Eee] 
响应 报 文 | | 
客户 端 HTTP/1.0 200 OK q 4 j x 
New product list: www.joes-hardware.com 数据 库 

















图 8-1 网 关 的 魔力 





) HTTP/FTP 服 务 器 端 FTP 网 关 
Lio pe B 
HTTP P; FTP 服 务 器 

(b) HTTPS/HTTP 客 户 端 安全 网 关 
Legi e B 
HTTPS 客 户 端 Web 服 务 器 


(c) HTTP/CGI 服 务 器 ; nius 网 关 


CGI (或 其 他 APD) 


HTTP Q 
和 


HTTP iii 应 用 程序 服务 器 网 关 











图 8-2 三 个 Web 网 关 实 例 
图 8-2 显示 了 三 个 网 关 的 示例 。 





。 在 图 8-2a 中 ， 网 关 收 到 了 对 FTP URL 的 HTTP 请 求 。 然 后 网 关 打 开 FTP 连接 ， 
并 向 FTP 服务 器 发 布 适当 的 命令 。 然 后 将 文档 和 正确 的 HTTP 首部 通过 HTTP 
回 送 。 


° 在 图 8-2b 中 ， 网 关 通 过 SSL 收 到 了 一 条 加 密 的 Web 请 求 ， 网 关 会 对 请 求 进行 解 
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密 ，' 然后 向 目标 服务 器 转发 一 条 普通 的 HTTP 请 求 。 可 以 将 这 些 安全 加 速 器 直 
接 放 在 (通常 处 于 同一 场所 的 ) W Web 服务 器 前 面 ， 以 便 为 原始 服务 器 提供 高 性 能 
的 加 密 机 制 。 

° 在 图 8-2c 中 ， 网 关 通 过 应 用 程序 服务 器 网 关 API, Ki HTTP 客户 端 连接 到 服务 
器 端的 应 用 程序 上 去 。 在 网 上 的 电子 商店 购物 、 查 看 天 气 预报 ， 或 者 获取 股票 报 
价 时 ， 访 问 的 就 是 应 用 程序 服务 器 网 关 。 




















客户 端 和 服务 器 端 网 关 

Web 网 关 在 一 侧 使 用 HTTP 协议 ， 在 另 一 侧 使 用 另 一 种 协议 。” 

可 以 用 一 个 斜 杠 来 分 隔 客户 端 和 服务 器 端 协议 ， 并 以 此 对 网 关 进 行 描述 
< 客户 端 协议 >/< 服务 器 端 协议 > 


AE, Ki HTTP 客户 端 连接 到 NNTP 新 闻 服 务 器 的 网 关 就 是 一 个 HTTP/NNTP 网 
关 。 我 们 用 术语 服务 器 端 网 关 和 客户 痛 网 关 来 说 明 对 话 是 在 网 关 的 哪 一 侧 进行 的 。 


° RA BA (server-side gateway) 通过 HTTP 与 客户 端 对 话 ， 通 过 其 他 协议 
与 服务 ua (HTTP/*), 
° AP 3M X (client-side gateway) 通过 其 他 协议 与 客户 端 对 话 ， 通 过 HTTP 与 服 








务 器 通信 (*/HTTP), 


8.2 协议 网 关 

将 HTTP 流量 导向 网 关 时 所 使 用 的 方式 与 将 流量 导向 代理 的 方式 相同 。 最 常见 的 方 
式 是 ， 显 式 地 配置 浏览 器 使 用 网 关 ， 对 流量 进行 透明 的 拦截 ， 或 者 将 网 关 配 置 为 替 
代 者 ( 反 向 代理 )。 


图 8-3 显示 了 配置 浏览 器 使 用 服务 器 端 FTP 网 关 的 对 话 框 。 在 图 中 显示 的 配置 中 ， 
配置 浏览 器 将 gw 1.joes-hardware.com 作为 所 有 FTP URL 的 HTTP/FTP 网 关 。 浏 览 
器 没有 将 FTP 命令 发 送 给 FTP 服务器， 而 是 将 HTTP 命令 发 送 给 端口 8080 上 的 
HTTP/FTP 网 关 NONO ee 














图 8-4 给 出 了 这 种 网 关 配 置 的 结果 。 一 般 的 HTTP 流量 不 受 影 响 ， 会 继续 流入 
原始 服务 器 。 但 对 FTP URL 的 请 求 则 被 放 在 HTTP 请 求 中 发 送 给 网 关 gwl.joes- 











注 1: 网 关上 要 安装 适当 的 服务 器 证 书 。 
注 2: 在 不 同 HTTP 版 本 之 间 进 行 转换 的 Web 代理 就 像 网 关 一 样 ， 它 们 会 执行 复杂 的 逻辑 ， 以 便 在 各 个 端 
点 之 间 进 行 沟通 。 但 因为 它们 在 两 侧 使 用 的 都 是 HITP， 所 以 从 技术 上 来 讲 ， 它 们 还 是 代理 。 
































hardware.com。 网 关 代 表 客 户 端 执 行 EFTP 事 务 ， 并 通过 HTTP 将 结果 回 送 给 客 
户 端 。 





rfccnces a E 









































CTICDCENENEEEEENEEESR DSS -一 
Category Proxies ES! 
Appearance 
m Type Proxy address to use Port d Configure Proxies to Access the Internet 
ed olors 
目 HTTP: i Themes C Direct connection to the Internet 
5 J 1] a [ | Content Packs (* Manual proxy configuration. 
Sene: 4 Navigator a 
: ETP Proxy: |awi.joes-hardware.com Port: {8080 
FTP: gwl,joes-hardware,com [8080 Composer 
CI 由 | Mail & Newsgroups Gopher Proxy: Port: o 
i + Instant (st HTTP Proxy: Pot: p 
Socks: H Privacy & Security , | — i 
E Advanced SSL Proxy: Port: [o 
[^ Use the same proxy server for all protocols Cache SOCKS Host: I Port: p 
F C SOCKS v4 (* SOCKS v5 
| Exceptions Software Installa... 
Do not use proxy server for addresses beginning with: Mouse Wheel No Proxy for: 
eis] 一 System Example: mozilla.org, .net.nz 
3 Offline & Disk Space C Automatic proxy configuration URL: 
Use semicolons ( ; ) to separate entries. ad | 




















ok | Cancel cael | hep | 
(a) MSIE 的 手工 代理 设置 (b) Navigator 的 手工 代理 设置 




















8-3 配置 一 个 HTTP/FTP 网 关 











GET http://www.cnn.com/HTTP/1.0 
Host: www.cnn.com 
User-agent: SuperBrowser 4.2 


HTTP Œ 


Web 服 务 器 


(www.cnn.com) 


HTTP Ji 8039 
GET ftp://ftp.irs.gov/pub/00-index.txt HTTP/1.0 


Host: ftp.irs.gov HTTP/FTP 网 关 FTP 服 务 器 
: AN 
User-agent: SuperBrowser 4.2 (gwl.joes-hardware.com) (ftp.irs.gov) 





























图 8-4 浏览 器 可 以 通过 配置 ， 让 特定 的 协议 使 用 特定 的 网 关 


后 面 的 小 节 会 介绍 各 种 常见 网 关 类 型 : 服务 器 协议 转换 器 、 服 务 器 端 安全 网 关 、 客 
户 端 安全 网 关 以 及 应 用 程序 服务 器 。 


8.2.1 HTTP: 服务 器 端 Web 网 关 


请 求 流入 原始 服务 器 时 ， 服 务 器 端 Web 网 关 会 将 客户 端 HTTP 请 求 转换 为 其 他 协议 
(参见 图 8-5). 
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MDTM 00-index.txt 
GET ftp://ftp.irs.gov/pub/OO-index.txt HTTP/1.0 PA HIER RA . 
Host: ftp.irs.gov RETR 00-index.txt | 端口 21 
User-agent: SuperBrowser 4.2 


























HTTP 
: CURPPHORGERE — 
HTTP 客 户 端 HTTP/FTP 输 “data.. FTP 服 务 器 
入 转换 网 关 | 
1 > 人 站 
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8-5 HTTP/FTP 网 关 将 HTTP 请 求 转换 成 FTP 请 求 


在 图 8-5 中 ， 网 关 收 到 了 一 条 对 FTP 资源 的 HTTP 请 求 : 





ftp://ftp.irs.gov/pub/00-index.txt 


网 关 会 打开 一 条 到 原始 服务 器 FTP 端口 (端口 21) 的 FTP 连接 ， 通 过 FTP 协议 获 
取 对 象 。 网 关 会 做 下 列 事情 : 


° 发 送 USER 和 了 PASS 命令 登录 到 服务 器 上 去 ， 

。 发 布 CWD 命令 ， 转 移 到 服务 器 上 合适 的 目录 中 去 ， 

。 将 下 载 类 型 设置 为 ASCII; 

。 用 MDTM 获取 文档 的 最 后 修改 时 间 ， 

* JH PASV 告诉 服务 器 将 有 被 动 数 据 获 取 请 求 到 达 ， 

* 用 RETR 请 求 进行 对 象 获 取 ; 

。 打开 到 FTP 服务 器 的 数据 连接 ， 服 务 器 端口 由 控制 信道 返回 ; 一 旦 数据 信道 打 
开 了 ， 就 将 对 象 内 容 回 送 给 网 关 。 


完成 获取 之 后 ， 会 将 对 象 放 在 一 条 HTTP 响应 中 回 送 给 客户 端 。 





8.2.2 HTTP/HTTPS. 服务 器 端 安全 网 关 

一 个 组 织 可 以 通过 网 关 对 所 有 的 输入 Web 请 求 加 密 ， 以 提供 额外 的 隐私 和 安全 性 保 
护 。 客 户 端 可 以 用 普通 的 HTTP 浏览 Web 内 容 ， 但 网 关 会 自动 加 密 用 户 的 对 话 ( 参 
WE 8-6) 。 

















8.2.3 HTTPS/HTTP 客 户 端 安 全 加 速 器 网 关 
最 近 ， 将 HTTPS/HTTP 网 关 作 为 安全 加 速 器 使 用 的 情况 是 越 来 越 多 了 。 这 些 
HTTPS/HTTP 网 关 位 于 Web 服务 器 之 前 ， 通 常 作 为 不 可 见 的 拦截 网 关 或 反 向 代理 





212 | 第 8 章 


使 用 。 它 们 接收 安全 的 HTTPS 流量 ， 对 安全 流量 进行 解密 ， 并 向 Web 服务 器 发 送 
普通 的 HTTP 请 求 (参见 图 8-7), 







































































GET http://www.cnn.com/ HTTP/1.0 mdsnrt734tngfd/pof92piubs. 
Host: www.cnn.com lod9fuo8w34b4/;p-90[g9yk, 8 A 
User-agent: Superbrowser 4.2 U|t6y6/ $!89890G8*898... aj 
HTTP f SSL 上 的 HTTP (HTTPS) X 
X 
> M 
HTTP Pig HTTP/HTTPS WS ”安全 Web 
输入 安全 网 关 服务 器 
8-6 输入 HTTP/HTTPS 安全 网 关 
号 受 保护 的 内 部 LAN 
mdsnrt734tngfd/pOf92piub5. : 
Todo fuotsdba/ jb Q0 [g9yi à MEL tipiy wi. Cone eam APER 
U|tey6/ $18989068*898. . . User-agent: Superbrowser 4.2 
Lom (HTTPS) HTTP » 
浏览 器 HTTPS/HTTP 安 www.cnn.com 
全 加 速 器 网 关 











8-7 HTTPS/HTTP 安全 加 速 器 网 关 


这 些 网 关中 通常 都 包含 专用 的 解密 硬件 ， 以 比 原始 服务 器 有 效 得 多 的 方式 来 解密 安 
全 流量 ， 以 减轻 原始 服务 器 的 负荷 。 这 些 网 关 在 网 关 和 原始 服务 器 之 间 发 送 的 是 未 
加 密 的 流量 ， 所 以 ， 要 谨慎 使 用 ， 确 保 网 关 和 原始 服务 器 之 间 的 网 络 是 安全 的 。 


8.3 资源 网 关 

到 目前 为 止 ， 我 们 一 直 在 讨论 通过 网 络 连接 客户 端 和 服务 器 的 网 关 。 但 最 常见 的 网 
关 ， 应 用 程序 服务 器 ， 会 将 目标 服务 器 与 网 关 结 合 在 一 个 服务 器 中 实现 。 应 用 程序 
服务 器 是 服务 器 端 网 关 ， 与 客户 端 通过 HTTP 进行 通信 ， 并 与 服务 器 端的 应 用 程序 
相连 (参见 图 8-8)。 






































在 图 8-8 中 ， 两 个 客户 端 是 通过 HTTP 连接 到 应 用 程序 服务 器 的 。 但 应 用 程序 
服务 器 并 没有 回 送 文件 ， 而 是 将 请 求 通过 一 个 网 关 应 用 编程 接口 (Application 
Programming Interface, API) 发 送 给 运行 在 服务 器 上 的 应 用 程序 。 
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图 8-8 应 用 程序 服务 器 可 以 将 HTTP 客户 端 连接 任意 后 台 应 用 程序 


° 收 到 客户 端 A 的 请 求 ， 根 据 URI 将 其 通过 API 发 送 给 一 个 数码 摄 相机 应 用 程序 。 
将 得 到 的 图 片 绑 定 到 一 条 HTTP 响应 报 文中 ， 再 回 送 给 客户 端 ， 在 客户 端的 浏览 
器 中 显示 。 

° 客户 端 B BJ URI 请 求 的 是 一 个 电子 商务 应 用 程序 。 客 户 端 B 的 请 求 是 通过 服务 
器 网 关 API 发 送 给 电子 商务 软件 的 ， 结 果 会 被 回 送 给 浏览 器 。 电 子 商务 软件 与 客 
户 端 进行 交互 ， 引 导 用 户 通过 一 系列 HTML 页 面 来 完成 购物 。 




















第 一 个 流行 的 应 用 程序 网 关 API 就 是 通用 网 关 接 口 (Common Gateway Interface, 
CGI). CGI 是 一 个 标准 接口 集 ，Web 服务 器 可 以 用 它 来 装载 程序 以 响应 对 特定 
URL 的 HTTP 请 求 ， 并 收集 程序 的 输出 数据 ， 将 其 放 在 HTTP 响应 中 回 送 。 在 过 去 
的 几 年 中 ， 商 业 Web 服务 器 提供 了 一 些 更 复杂 的 接口 ， 以 便 将 Web 服务 器 连接 到 
应 用 程序 上 去 。 


早期 的 Web 服务 器 是 相当 简单 的 ， 在 网 关 接口 的 实现 过 程 中 采用 的 简单 方式 一 直 持 
续 到 了 今天 。 


请 求 需要 使 用 网 关 的 资源 时 ， 服 务 器 会 请 辅助 应 用 程序 来 处 理 请 求 。 服 务 器 会 将 辅 
助 应 用 程序 所 需 的 数据 传送 给 它 。 通 常 就 是 整 条 请 求 ， 或 者 用 户 想 在 数据 库 上 运行 
的 请 求 (来 自 URL 的 请 求 字 符 串 ， 参 见 第 2 章 ) 之 类 的 东西 。 

然后 ， 它 会 向 服务 器 返回 一 条 响应 或 响应 数据 ， 服 务 器 则 会 将 其 转发 给 客户 端 。 服 
务 器 和 网 关 是 相互 独立 的 应 用 程序 ， 因 此 ， 它 们 的 责任 是 分 得 很 清楚 的 。 图 8-9 W 
示 了 服务 器 与 网 关 应 用 程序 之 间 交 互 的 基本 运行 机 制 。 

这 个 简单 的 协议 (输入 请 求 ， 转 交 ， 响 应 ) 就 是 最 古老 ， 也 最 常用 的 服务 器 扩展 接 
口 CGI 的 本 质 。 
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服务 器 内 部 视图 






































服务 器 进程 - - 
请 求 1 O D e » 引发 的 网 关 进 程 1 
请 求 数 
请 求 2 》 Ex) b 二 二 n 二 > 引发 的 网 关 进 程 2 
请 求 N — 0 oo >| 引发 的 网 关 进 程 N 
服务 器 系统 
响应 N 
响应 2 





响应 1 











图 8-9 ”服务 器 网 关 应 用 程序 机 制 


8.3.1 CGI 


CGI 是 第 一 个 ， 可 能 仍然 是 得 到 最 广泛 使 用 的 服务 器 扩展 。 在 Web 上 广泛 用 于 动态 
HTML、 信 用 卡 处 理 以 及 数据 库 查 询 等 任务 。 


CGI 应 用 程序 是 独立 于 服务 器 的 ， 所 以 ， 几 乎 可 以 用 任意 语言 来 实现 ， 包 括 Perl, 
Tcl, C 和 各 种 shell 语言 。CGI 很 简单 ， 几 乎 所 有 的 HTTP 服务 器 都 支持 它 。 图 8-9 
显示 了 CGI 模型 的 基本 运行 机 制 。 


CGI 的 处 理 对 用 户 来 说 是 不 可 见 的 。 从 客户 端的 角度 来 看 ， 就 像 发 起 一 个 普通 请 求 
一 样 。 它 完全 不 清楚 服务 器 和 CGI 应 用 程序 之 间 的 转 接 过 程 。URL 中 出 现 字符 cgi 
和 可 能 出 现 的 “?” 是 客户 端 发 现 使 用 了 CGI 应 用 程序 的 唯一 线索 。 


看 来 CGI 是 很 棒 的 ， 对 吧 ? 嗯 ， 好 吧 ， 既 是 也 不 是 。 它 在 服务 器 和 众多 的 资源 类 型 
之 间 提 供 了 一 种 简单 的 、 函 数 形式 的 粘 合 方式 ， 用 来 处 理 各 种 需要 的 转换 。 这 个 接 
口 还 能 很 好 地 保护 服务 器 ， 防 止 一 些 糟糕 的 扩展 对 它 造 成 的 破坏 (如果 这 些 扩展 直 
接 与 服务 器 相连 ， 造 成 的 错误 可 能 会 引发 服务 器 崩溃 ) 。 


但 是 ， 这 种 分 离 会 造成 性 能 的 耗费 。 为 每 条 CGI 请 求 引 发 一 个 新 进程 的 开销 是 很 高 
的 ， 会 限制 那些 使 用 CGI 的 服务 器 的 性 能 ， 并 且 会 加 重 服 务 端 机 器 资源 的 负担 。 为 
了 解决 这 个 问题 ， 人 们 开发 了 一 种 新 型 CGI 一 一 并 将 其 恰当 地 称 为 快速 CGI。 这 个 
接口 模拟 了 CGI， 但 它 是 作为 持久 守护 进程 运行 的 ， 消 除了 为 每 个 请 求 建立 或 拆除 
新 进程 所 带 来 的 性 能 损耗 。 

















8.3.2 ”服务 器 扩展 API 


CGI 协议 为 外 部 翻译 器 与 现 有 的 HTTP 服务 器 提供 了 一 种 简洁 的 接口 方式 ， 但 如 
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果 想 要 改变 服务 器 自身 的 行为 ， 或 者 只 是 想 尽 可 能 地 提升 能 从 服务 器 上 获得 的 性 能 
呢 ? 服务 属 开 发 者 为 这 两 种 需求 提供 了 几 种 服务 器 扩展 API， 为 Web 开发 者 提供 了 
强大 的 接口 ， 以 便 他 们 将 自己 的 模块 与 HTTP 服务 器 直接 相连 。 扩 展 API 允许 程序 
员 将 自己 的 代码 嫁接 到 服务 器 上 ， 或 者 用 自己 的 代码 将 服务 器 的 一 个 组 件 完 整地 替 
换 出 来 。 


大 多 数 流行 的 服务 器 都 会 为 开发 者 提供 一 个 或 多 个 扩展 API。 这 些 扩展 通常 都 会 绑 
定 在 服务 器 自身 的 结构 上 ， 所 以 ， 大 多 数 都 是 某 种 服务 器 类 型 特有 的 。 微 软 、 网 景 、 
Apache 和 其 他 服务 器 都 提供 了 一 些 API 接口 ， 允 许 开发 者 通过 这 些 接口 改变 服务 怖 
的 行为 ， 或 者 为 不 同 的 资源 提供 一 些 定制 的 接口 。 这 些 定制 接口 为 开发 者 提供 了 强 
大 的 接口 方式 。 


微软 的 FPSE (FrontPage 服务 器 端 扩 展 ) 就 是 服务 器 扩展 的 一 个 实例 ， 它 为 使 用 
FrontPage 的 作者 进行 Web 发 布 提供 支持 。FPSE 能 够 对 FrontPage 客户 端 发 送 的 
RPC (remote procedure call， 远 程 过 程 调用 ) 命令 进行 解释 。 这 些 命 令 会 在 HTTP 
中 (具体 来 说 ， 就 是 在 HTTP POST 方法 上 ) dll, Zi AU 19.175, 


8.4 应 用 程序 接口 和 Web 服 务 


我 们 已 经 讨论 过 可 以 将 资源 网 关 作 为 Web 服务 器 与 应 用 程序 的 通信 方式 使 用 。 更 广 
泛 地 说 ， 随 着 Web 应 用 程序 提供 的 服务 类 型 越 来 越 多 ， 有 一 点 变 得 越 来 越 清晰 了 : 
HTTP 可 以 作为 一 种 连接 应 用 程序 的 基础 软件 来 使 用 。 在 将 应 用 程序 连接 起 来 的 过 
程 中 ， 一 个 更 为 辐 手 的 问题 是 在 两 个 应 用 程序 之 间 进 行 协议 接口 的 协商 ， 以 便 这 些 
应 用 程序 可 以 进行 数据 的 交换 一 一 这 通常 都 是 针对 具体 应 用 程序 的 个 案 进 行 的 。 


应 用 程序 之 间 要 配合 工作 ， 所 要 交互 的 信息 比 HTTP 首部 所 能 表达 的 信息 要 复杂 得 
多 。 第 19 章 描述 了 几 个 用 于 交换 定制 信息 的 扩展 HTTP 或 HTTP 上 层 协议 实例 。 
19.1 节 介 绍 的 是 在 HTTP POST 报 文 之 上 建立 RPC 层 ，19.2 节 介 绍 的 是 向 HTTP 首 
部 添加 XML 的 问题 。 


因特网 委员 会 开发 了 一 组 允许 Web 应 用 程序 之 间 相 互通 信 的 标准 和 协议 。 尽 管 Web 
服务 (Web service) 可 以 用 来 表示 独立 的 Web 应 用 程序 (构造 模块 )， 这 里 我 们 还 
是 宽松 地 用 这 个 术语 来 表示 这 些 标 准 。Web 服务 的 引入 并 不 新 鲜 ， 但 这 是 应 用 程序 
共享 信息 的 一 种 新 机 制 。Web 服务 是 构建 在 标准 的 Web 技术 〈 比 如 HTTP) 之 上 的 。 























Web 服务 可 以 用 XML 通过 SOAP 来 交换 信息 。XML (Extensible Markup Language, 
扩展 标记 语言 ) 提供 了 一 种 创建 数据 对 象 的 定制 信息 ， 并 对 其 进行 解释 的 方法 。 
SOAP (Simple Object Access Protocol， 简 单 对 象 访问 协议 ) 是 向 HTTP 报 文 中 添加 
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XML 信息 的 标准 方式 。” 


8.5 ”隧道 


我 们 已 经 讨论 了 几 种 不 同 的 方式 ， 通 过 这 些 方式 可 以 用 HTTP 对 不 同类 型 的 资源 进 
行 访问 〈 通 过 网 关 )， 或 者 是 用 HTTP 来 启动 应 用 程序 到 应 用 程序 的 通信 。 在 本 节 
中 ， 我 们 要 看 看 HTTP 的 另 一 种 用 法 一 一 Web 隧道 (Web tunnel) ， 这 种 方式 可 以 通 
过 HTTP 应 用 程序 访问 使 用 非 HTTP 协议 的 应 用 程序 。 





























Web 隧道 允许 用 户 通过 HTTP 连接 发 送 非 HTTP 流量 ， 这 样 就 可 以 在 HTTP EHA 
其 他 协议 数据 了 。 使 用 Web 隧道 最 常见 的 原因 就 是 要 在 HTTP E Ez rR i: A. dE HTTP 
流量 ， 这 样 ， 这 类 流量 就 可 以 穿 过 只 允许 Web 流量 通过 的 防火 墙 了 。 











8.5.1 用 CONNECT 建 立 HTTP 隧 道 

Web 隧 道 是 用 HTTP 的 CONNECT 方 法 建立 起 来 的 。CONNECT 方 法 并 不 是 
HTTP/1.1 核心 规范 的 一 部 分 ,“ 但 却 是 一 种 得 到 广泛 应 用 的 扩展 。 可 以 在 Ari 
Luotonen 的 过 期 因特网 草案 规范 “Tunneling TCP based protocols through Web 
proxy servers” (“Mit Web 代理 服务 器 用 隧道 方式 传输 基于 TCP 的 协议 ”) ， 或 他 的 
著作 Web Proxy Servers 中 找到 这 些 技术 规范 ， 本 章 末 尾 引 用 了 这 两 份 资源 。 








CONNECT 方法 请 求 隧道 网 关 创建 一 条 到 达 任 意 目 的 服务 器 和 端口 的 TCP 连接 ， 并 
对 客户 端 和 服务 器 之 间 的 后 继 数据 进行 请 转发 。 


8-10 显示 了 CONNECT 方法 如 何 建立 起 一 条 到 达 网 关 的 隧道 。 





° 在 图 8-10a 中 ， 客 户 端 发 送 了 一 条 CONNECT 请 求 给 隧道 网 关 。 客 户 端 的 
CONNECT 方法 请 求 隧道 网 关 打 开 一 条 TCP 连接 (在 这 里 ， 打 开 的 是 到 主机 
orders.joes-hardware.com 的 标准 SSL 端口 443 的 连接 )。 

° 在 图 8-10b 和 图 8-10c 中 创建 了 TCP 连接 。 

° 一 旦 建立 了 TCP 连接 ， 网 关 就 会 发 送 一 条 HTTP 200 Connection Established Il] 
应 来 通知 客户 端 (参见 图 8-10d) 。 

° 此 时 ， 隧 道 就 建立 起 来 了 。 客 户 端 通 过 HTTP 隧道 发 送 的 所 有 数据 都 会 被 直接 转 
发 给 输出 TCP 连接 ， 服 务 器 发 送 的 所 有 数据 都 会 通过 HTTP 隧道 转发 给 客户 端 。 











注 3: 更 多 信息 ， 请 参见 http://www.w3.org/TR/2001/WD-soap12-part0-20011217/。Doug Tidwell, James Snell 
和 Pavel Kulchenko 编写 的 Programming Web Services with SOAP(SOAP Web 服务 开发 ) 一 书 (O Reilly) 
也 是 非常 好 的 SOAP 协议 信息 资源 。 

注 4: HTTP/1.1 规范 保留 了 CONNECT 方法 ， 但 没有 对 其 功能 进行 描述 。 
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mE — eda Ed T 4 普通 的 SSL 连 接 I 


客户 端 poe (B orders.joes-hardware.com 
(a) 发 送 CONNECT 请 求 道 端点 ) 





CONNECT orders.joes-hardware.com:443 HTTP/1.0 
User-agent: SuperBrowser4.2 











(d) 返回 HTTP 连 接 就 绪 报 文 L .eéé@égeëëëlJle. MR 


HTTP/1.0 200 Connection established | | uuu (c) ve CURL 























双向 通信 ， 直 到 连接 关闭 为 止 。 
9 
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8-10 F8 CONNECT 建立 一 条 SSL 隧道 

图 8-10 中 的 例子 描述 了 一 条 SSL 隧道， 其 中 的 SSL 流量 是 在 一 条 HTTP 连接 上 
发 送 的 ， 但 是 通过 CONNECT 方法 可 以 与 使 用 任意 协议 的 任意 服务 器 建立 TCP XE 
接 的 。 





1. CONNECT 请 求 
除了 起 始 行 之 外 ，CONNECT 的 语法 与 其 他 HTTP 方法 类 似 。 一 个 后 面 跟着 冒号 和 
端口 号 的 主机 名 取代 了 请 求 URI。 主 机 和 端口 都 必须 指定 : 


CONNECT home.netscape.com:443 HTTP/1.0 
User-agent: Mozilla/4.0 


和 其 他 HTTP 报 文 一 样 ， 起 始 行 之 后 ， 有 零 个 或 多 个 HTTP 请 求 首部 字段 。 这 些 行 
照例 以 CRLF 结尾 ， 首 部 列表 以 一 个 仅 有 CRLF 的 空 行 结束 。 





2. CONNECT 响 应 
发 送 了 请 求 之 后 ， 客 户 端 会 等 待 来 自 网 关 的 响应 。 和 普通 HTTP 报 文 一 样 ， 响 应 码 
200 表示 成 功 。 按 照 惯例 ， 响 应 中 的 原因 短语 通 向 被 设置 为 “Connection Established" : 
HTTP/1.0 200 Connection Established 
Proxy-agent: Netscape-Proxy/1.1 
与 普通 HTTP 响应 不 同 ， 这 个 响应 并 不 需要 包含 Content-Type 首部 。 此 时 连接 只 
是 对 原始 字 节 进行 转 接 ， 不 再 是 报 文 的 承载 者 ， 所 以 不 需要 使 用 内 容 类 型 了 。- 


8.5.2 ”数据 隧道 、 定 时 及 连接 管理 
管道 化 数据 对 网 关 是 不 透明 的 ， 所 以 网 关 不 能 对 分 组 的 顺序 和 分 组 流 作 任何 假设 。 
一 旦 隧道 建立 起 来 了 ， 数 据 就 可 以 在 任意 时 间 流 向 任意 方向 了 。5 


作为 一 种 性 能 优化 方法 ， 允 许 客户 端 在 发 送 了 CONNECT 请 求 之 后 ， 接 收 响应 之 
前 ， 发 送 隧道 数据 。 这 样 可 以 更 快 地 将 数据 发 送 给 服务 器 ， 但 这 就 意味 着 网 关 必 须 
能 够 正确 处 理 跟 在 请 求 之 后 的 数据 。 尤 其 是 ， 网 关 不 能 假设 网 络 IO 请 求 只 会 返回 
首部 数据 ， 网 关 必 须 确保 在 连接 准备 就 绪 时 ， 将 与 首部 一 同 读 进来 的 数据 发 送 给 服 
务 器 。 在 请 求 之 后 以 管道 方式 发 送 数据 的 客户 端 ， 如 果 发 现 回 送 的 响应 是 认证 请 求 ， 
或 者 其 他 非 200 但 不 致命 的 错误 状态 ， 就 必须 做 好 重 发 请 求 数据 的 准备 。” 

如 果 在 任意 时 刻 ， 隧 道 的 任意 一 个 端点 断 开 了 连接 ， 那 个 端点 发 出 的 所 有 未 传输 数 
据 都 会 被 传送 给 另 一 个 端点 ， 之 后 ， 到 另 一 个 端点 的 连接 也 会 被 代理 终止 。 如 果 还 
有 数据 要 传输 给 关闭 连接 的 端点 ， 数 据 会 被 丢弃 。 

















8.5.3 SSL 隧 道 

最 初 开 发 Web 隧道 是 为 了 通过 防火 墙 来 传输 加 密 的 SSL 流量 。 很 多 组 织 都 会 将 所 有 
流量 通过 分 组 过 小路 由 器 和 代理 服务 器 以 隧道 方式 传输 ， 以 提升 安全 性 。 但 有 些 协 
议 ， 比 如 加 密 SSL， 其 信息 是 加 密 的 ， 无 法 通过 传统 的 代理 服务 器 转发 。 隧 道 会 通过 
一 条 HTTP 连接 来 传输 SSL 流量 ， 以 穿 过 端口 80 的 HTTP 防火 墙 (参见 图 8-11) 。 
































注 5: 为 了 实现 一 致 性 ， 今 后 的 规范 可 能 会 为 隧道 定义 一 个 媒体 类 型 (比如 application/tunnel) 。 

注 6: 隧道 的 两 端 (客户 端 和 网 关 ) 必须 做 好 在 任意 时 刻 接收 来 自 连接 任 一 端 分 组 的 准备 ， 而 且 必须 将 数据 
立即 转发 出 去 。 由 于 隧道 化 协议 中 可 能 包含 了 数据 的 依赖 关系 ， 所 以 隧道 的 任 一 端 都 不 能 忽略 输入 数 
据 。 隧 道 一 端 对 数据 的 消耗 不 足 可 能 会 将 隧道 另 一 端的 数据 生产 者 挂 起 ， 造 成 死 锁 。 

注 7: 传送 的 数据 不 要 超过 请 求 TCP 分 组 的 剩余 容量 。 如 果 在 收 到 所 有 管道 化 传输 的 TCP 分 组 之 前 ， 网 关 
关闭 了 连接 ， 那 么 ， 管 道 化 传输 的 多 余数 据 就 会 使 客户 端 TCP 重 置 。TCP 重 置 会 使 客户 端 丢失 收 到 
的 网 关 响 应 ， 这 样 客 户 端 就 无 法 分 辩 错 误 是 由 于 网 络 错误 、 访 问 控制 ， 还 是 认证 请 求 造 成 的 了 。 
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(a) 防火 墙 拒绝 SSL 























y 防火 墙 代 理 
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(b) 防火 墙 接受 由 HTTP 承 载 的 SSL 


在 HTTP `h 本 R 
中 隧道 化 


传输 能 
的 M 
SSL (被 


客户 端 接受 了 ) 






































SSL 服 务 器 








防火 墙 代理 








图 8-11 隧道 可 以 经 由 HTTP 连接 传输 非 HTTP 流量 


为 了 让 SSL 流量 经 现存 的 代理 防火 墙 进行 传输 ，HTTP 中 添加 了 一 项 隧道 特性 ， 在 
此 特性 中 ， 可 以 将 原始 的 加 密 数 据 放 在 HTTP 报 文中 ， 通 过 普通 的 HTTP 信道 传送 
(参见 图 8-12 ) 。 








在 图 8-12a rh, SSL 流量 被 直接 发 送 给 了 一 个 (SSL 端口 443 上 的 ) 安全 Web 服务 
器 。 在 图 8-12b rh, SSL 流量 被 封装 到 一 条 HTTP 报 文中 ， 并 通过 HTTP 端口 80 上 
的 连接 发 送 ， 最 后 被 解 封装 为 普通 的 SSL 连接 。 

通常 会 用 隧道 将 非 HTTP 流量 传 过 端口 过 滤 防 火 墙 。 这 一 点 可 以 得 到 很 好 的 利用 ， 
比如 ， 通 过 防火 墙 传输 安全 SSL 流量 。 但 是 ， 这 项 特性 可 能 会 被 滥用 ， 使 得 恶意 协 
议 通过 HTTP 隧道 流入 某 个 组 织 内 部 。 











8.5.4 SSL 隧道 与 HTTP/HTTPS 网 关 的 对 比 

可 以 像 其 他 协议 一 样 ， 对 HTTPS 协议 (SSL 上 的 HTTP) 进行 网 关 操 作 : 由 网 关 

(而 不 是 客户 端 ) 初始 化 与 远 端 HTTPS 服务 器 的 SSL 会 话 ， 然 后 代表 客户 端 执 行 

HTTPS 事务 。 响 应 会 由 代理 接收 并 解密 ， 然 后 通过 (不 安全 的 ) HTTP 传送 给 客户 

端 。 这 是 网 关 处 理 FTP 的 方式 。 但 这 种 方式 有 几 个 缺点 : 

° 客户 端 到 网 关 之 间 的 连接 是 普通 的 非 安全 HTTP; 

。 尽管 代理 是 已 认证 主体 ， 但 客户 端 无 法 对 远 端 服务 器 执行 SSL 客户 端 认 证 (Gk 
于 X509 证 书 的 认证 ) ; 
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。 网 关 要 支持 完整 的 SSL 实现 。 
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(a) 直接 的 SSL 连 接 
端口 443 
š Em-g@— = 


客户 端 服务 器 





(b) 通过 HTTP 隧 道 建立 的 SSL 连 接 


P 
Š ”服务 器 





I 端口 80 


Y : 
| 隧道 在 一 条 普通 的 HTTP 连 接 上 
arre RA g HTTP 连 核 -* HTTP SI 承载 了 SSL 流 量 ， 目 标 端口 443 

















8-12 直接 的 SSL 连接 与 障 道 化 SSL 连接 的 对 比 


注意 ， 对 于 SSL 隧道 机 制 来 说 ， 无 需 在 代理 中 实现 SSL, SSL 会 话 是 建立 在 产生 请 
求 的 客户 端 和 目的 (安全 的 ) Web 服务 器 之 间 的 ， 中 间 的 代理 服务 器 只 是 将 加 密 数 
据 经 过 隧道 传输 ， 并 不 会 在 安全 事务 中 扮演 其 他 的 角色 。 


8.5.5 ”隧道 认证 
在 适当 的 情况 下 ， 也 可 以 将 HTTP 的 其 他 特性 与 隧道 配合 使 用 。 尤 其 是 ， 可 以 将 代 
理 的 认证 支持 与 隧道 配合 使 用 ， 对 客户 端 使 用 隧道 的 权利 进行 认证 (参见 图 8-13). 





8.5.6 ”隧道 的 安全 性 考虑 

总 的 来 说 ， 隧 道 网 关 无 法 验证 目前 使 用 的 协议 是 否 就 是 它 原本 打算 经 过 隧道 传输 的 
协议 。 因 此 ， 比 如 说 ， 一 些 喜 欢 捣 乱 的 用 户 可 能 会 通过 本 打算 用 于 SSL 的 隧道 ， 越 
过 公司 防火 墙 传递 因特网 游戏 流量 ， 而 恶意 用 户 可 能 会 用 隧道 打开 Telnet 会 话 ， 或 
用 隧道 绕 过 公司 的 E-mail 扫描 器 来 发 送 E-mail, 
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为 了 降低 对 隧道 的 滥用 ， 网 关 应 该 只 为 特定 的 知名 端口 ， 比 如 HTTPS 的 端口 443， 
打开 隧道 。 


户 端 和 网 关 之 间 的 隧道 
m 端 和 网 关 之 间 的 隧道 * 2 普通 的 SL 连接 B 








客户 端 网 关 orders.joes-hardware.com 
(a) 发 送 的 CONNECT 请 求 (隧道 端点 ) 





CONNECT orders.joes-hardware.com:443 HTTP/1.0 
User-agent: SuperBrowser 4.2 


(b) 返回 的 认证 请 求 


HTTP/1.0 407 Proxy authentication required 
Proxy-authenticate: Basic realm-"wormhole" 














4 


(c) 发 送 带 有 适当 认证 信息 的 CONNECT 请 求 


CONNECT orders.joes-hardware.com:443 HTTP/1.0 
User-agent: SuperBrowser 4.2 
Proxy-authorization: Basic YnJpYW4tdG9OdHk6T3ch 














j RUE M 
dE 








k. ER 
(f) 返回 HTTP 和 连接 就 绪 报 文 上 s 
uu. 3 M. 

HTTP/1.0 200 Connection established | P š (e) HRUE 

















图 8-13 ”网 关 人 允许 某 客户 端 使 用 隧道 之 前 ， 可 以 对 其 进行 代理 认证 


8.6 hk 


HTTP 中 继 (relay) 是 没有 完全 遵循 HTTP 规范 的 简单 HTTP 代理 。 中 继 负 责 处 理 
HTTP 中 建立 连接 的 部 分 ， 然 后 对 字 节 进行 盲 转发 。 


HTTP 很 复杂 ， 所 以 实现 基本 的 代理 功能 并 对 流量 进行 盲 转发 ， 而 且 不 执行 任何 首 
部 和 方法 逻辑 ， 有 了 时 是 很 有 用 的 。 盲 中 继 很 容易 实现 ， 所 以 有 了 时 会 提供 简单 的 过 滤 、 
诊断 或 内 容 转 换 功 能 。 但 这 种 方式 可 能 潜在 严重 的 互 操 作 问 题 ， 所 以 部 署 的 时 候 要 
特别 小 心 。 

某 些 简 单 盲 中 继 实 现 中 存在 的 一 个 更 常见 (也 更 声名 狼 厌 的 ) 问题 是 ， 由 于 它们 无 
法 正确 处 理 Connection 首部 ， 所 以 有 潜在 的 挂 起 keep-alive 连接 的 可 能 。 图 8-14 
对 这 种 情况 进行 了 说 明 。 
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(b) 服务 器 认为 对 方 要 求 建 
立 keep-alive 连 接 ， 所 以 任务 


























完成 后 不 会 关闭 连接 
(a) Connection: Keep-Alive p (b) Connection: Keep-Alive p 
盲 中 继 
4 (d) Connection: Keep-Alive 4 (c) Connection: Keep-Alive 
Pau, : " L3 
EIE 入 人 (c) 中 继 会 等 待 连接 的 关闭 ， aras 
"s 2 e ARER pie es 


(f) 中 继 不 会 去 处 理 keep-alive 连 接 上 客户 
端 发 出 的 第 二 条 请 求 ， 所 以 它 会 挂 起 在 那里 




















8-14 ”如 果 简 单 言 中 继 是 单 任务 的 ， 且 不 支持 Connection 首部 ， 就 会 挂 起 
这 张 图 中 发 生 的 情况 如 下 所 述 。 








在 图 8-14a rh, Web 客户 端 向 中 继 发 送 了 一 条 包含 Connection: Keep-Alive 
首部 的 报 文 ， 如 果 可 能 的 话 要 求 建 立 一 条 keep-alive 连接 。 客 户 端 等 待 响 应 ， 以 
确定 它 要 求 建立 keep-alive 信道 的 请 求 是 否 被 认可 了 。 

中 继 收 到 了 这 条 HTTP 请 求 ， 但 它 并 不 理解 Connection 首部 ， 因 此 会 将 报 文 一 
字 不 漏 地 沿 着 链 路 传递 给 服务 器 (参见 图 8-14b)。 但 Connection 首部 是 个 逐 
跳 首 部 ， 只 适用 于 单条 传输 链 路 ， 是 不 应 该 沿 着 链 路 传送 下 去 的 。 要 有 不 好 的 事 
情 发 生 了 ! 

在 图 8-14b 中 ， 经 过 中 继 转 发 的 HTTP 请 求 抵达 Web 服务 器 。 当 Web 服务 器 收 
到 经 过 代理 转发 的 Connection: Keep-Alive 首部 时 ， 会 错误 地 认为 中 继 (对 
服务 器 来 说 ， 它 看 起 来 就 和 其 他 客户 端 一 样 ) 要 求 进 行 keep-alive 的 对 话 ! 这 对 
Web 服务 器 来 说 没什么 问题 一 一 它 同意 进行 keep-alive 对 话 ， 并 在 图 8-14c 中 回 
送 了 一 个 Connection: Keep-Alive 响应 首部 。 那 么 ， 此 时 ，Web 服务 器 就 认 
为 它 是 在 与 中 继 进 行 keep-alive 对 话 ， 会 遵循 keep-alive 对 话 的 规则 。 但 中 继 对 
keep-alive 会 话 根本 就 一 无 所 知 。 

在 图 8-14d 中， 中 继 将 Web 服务 器 的 响应 报 文 ， 以 及 来 自 Web 服务 器 的 
Connection: Keep-Alive 首部 一 起 发 回 给 客户 端 。 客 户 端 看 到 这 个 首部 ， 认 
为 中 继 同 意 进 行 keep-alive 对 话 。 此 时 ， 客 户 端 和 服务 器 都 认为 它们 是 在 进行 
keep-alive 对 话 ， 但 与 它们 进行 对 话 的 中 继 却 根本 不 知道 什么 keep-alive 对 话 。 

中 继 对 持久 对 话 一 无 所 知 ， 所 以 它 会 将 收 到 的 所 有 数据 都 转发 给 客户 端 ， 等 待 原 
始 服务 器 关闭 连接 。 但 原始 服务 器 认为 中 继 要 求 服务 器 将 连接 保持 在 活跃 状态 ， 
所 以 是 不 会 关闭 连接 的 ! 这 样 ， 中 继 就 会 挂 起 ， 等 待 连接 的 关闭 。 

在 图 8-14d 中 ， 当 客户 端 收 到 回 送 的 响应 报 文 时 ， 它 会 直接 转向 第 二 条 请 求 ， 在 
keep-alive 连接 上 向 中 继 发 送 另 一 条 请 求 (参见 图 8-14e)。 简 单 中 继 通 常 不 会 期 
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有 一 些 方法 可 以 使 中 继 稍微 智能 一 些 ， 以 消除 这 些 风 险 ， 但 所 有 简化 的 代理 都 存在 





待 同一 条 连接 上 还 会 有 另 一 条 请 求 到 达 。 浏 览 右 上 的 圈 会 不 停 地 转 ， 但 没有 任何 
进展 








着 出 现 互 操作 性 问题 的 风险 。 要 为 某 个 特定 目标 构建 简单 的 HTTP 中 继 ， 
别 注意 其 使 用 方法 。 对 任何 大 规模 部 署 来 说 ， 都 要 非常 认真 地 考虑 使 用 真正 的 、 


As 





fü HTTP 的 代理 服务 器 


更 多 与 中 继 和 连接 管理 有 关 的 信息 ， 参 见 4.5.6 市。 


8. T as 


更 多 信息 ， 见 下 列 参考 材料 。 





http://www.w3.org/Protocols/rfc2616/rfc2616.txt 
RFC 2616, 由 R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Mastinter, P. 
Leach fll T. Berners-Lee 编写 的 “Hypertext Transfer Protocol", 


Web Proxy Servers («Web 代理 服务 器 》) 
Ari Luotonen, Prentice Hall 出 版 的 计算 机 图 书 。 











http://www.alternic.org/drafts/drafts-l-m/draft-luotonen-Web-proxy-tunneling-01.txt 
Ari Luotonen 编写 的 “Tunneling TCP based protocols through Web proxy servers” 
(“用 隧道 方式 通过 Web 代理 服务 器 传输 基于 TCP 的 协议 ”)。 

















http://cgi-spec.golux.com 

通用 网 关 接口 一 一 RFC 项 目 页 面 。 
http://www.w3.ore/TR/2001/WD-soap12-part0-20011217/ 
W3C 一 一 SOAP 版 本 1.2 工作 草案 。 


Programming Web Services with Soap! ((Soap Web 服务 开发 》) 
James Snell, Doug Tidwell 和 Pavel Kulchenko Z5, O'Reilly & Associates 公司 
出 版 。 


http://www.w3.org/TR/2002/WD-wsa-reqs-20020429 
W3C——Web 服务 的 架构 要 求 。 


Web Services Essentials? ((Web 服务 精髓 》) 
Ethan Cerami, O'Reilly & Associates 公司 出 版 。 





ik 8-9: 这 二 本 书 的 中 文 版 已 由 中 国电 力 出 版 社 出 版 。( 编 者 注 
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本 章 我 们 来 仔细 了 解 一 下 被 称 为 Web 机 器 人 (Web robot) 的 自 活跃 (self-animating) 
用 户 代 理 ， 以 继续 我 们 的 HTTP 架构 之 旅 。 


Web 机 器 人 是 能 够 在 无 需 人 类 干预 的 情况 下 自动 进行 一 系列 Web 事务 处 理 的 软件 
程序 。 很 多 机 器 人 会 从 一 个 Web 站 点 和 儿 到 另 一 个 Web 站 点 ， 获 取 内 容 ， 跟 踪 超 链 ， 
并 对 它们 找到 的 数据 进行 处 理 。 根 据 这 些 机 器 人 自动 探查 Web 站 点 的 方式 ， 人们 
为 它们 起 了 一 些 各 具 特 色 的 名 字 ， 比 如 “有 爬虫"`、“ 蜂 蛛 ” “蠕虫 ”以 及 “机 器 人 ” 
等 ， 就 好 像 它 们 都 有 自己 的 头脑 一 样 。 


这 里 有 几 个 Web 机 器 人 的 示 


° 股票 图 形 机 器 人 每 隔 儿 分 钟 就 会 向 股票 市 场 的 服务 器 发 送 HTTP GET， 用 得 到 的 
数据 来 构建 股市 价格 趋势 图 。 

° Web 统计 机 器 人 会 收集 与 万 维 网 规模 及 发 展 有 关 的 “统计 ”信息 。 它 们 会 在 
Web 上 游 荔 ,统计 页 面 的 数量 ,记录 每 个 页 面 的 大 小 、 所 用 语言 以 及 媒体 类 型 。! 

。 搜索 引擎 机 器 人 会 搜集 它们 所 找到 的 所 有 文档 ， 以 创建 搜索 数据 库 。 

比较 购物 机 器 人 会 从 在 线 商店 的 目录 中 收集 Web 页 面 ， 构 建 商品 及 甚 价格 的 数 

据 库 。 


9.1 ERRIRE 


Web E dh —RUgLaR A, CAW eA Ah eE Web 站 点 进行 遍历 ， 获 取 第 
— Web 页 面 ， 然 后 获取 那个 页 面 指向 的 所 有 Web 页 面 ， 然 后 是 那些 页 面 指向 的 
所 有 Web 页 面 ， 依 此 类 推 。 递 归 地 追踪 这 些 Web 链接 的 机 器 人 会 沿 着 HTML 超 链 
DERIK “EIT”, MARRA (crawler) Rk (spider). 


Ue diea o Së E HB ZE Web 上 游荡 ， 并 把 它们 碰 到 的 文档 全 部 拉 回 来 。 然 后 对 
这 些 文档 进行 处 理 ， 形 成 一 个 可 搜索 的 数据 库 ， 以 便 用 户 查 找 包含 了 特定 单词 的 文 
档 。 网 上 有 数 万 亿 的 Web 页 面 需要 查找 和 取 回 ， 这 些 搜索 引擎 最 蛛 必 然 是 些 最 复杂 
的 机 器 人 。 我 们 来 进一步 仔细 地 看 看 这 些 谎 虫 是 怎样 工作 的 。 


¿= 
° 























9.1.1 从 哪儿 开始 : 根 集 

在 把 饥饿 的 仆 虫 放出 去 之 前 ， 需 要 给 它 一 个 起 始点 。 扑 虫 开始 访问 的 URL 初始 集合 
被 称 作 根 集 (root set)。 挑 选 根 集 时 ， 应 该 从 足够 多 不 同 的 站 点 中 选择 URL， 这 样 ， 
爬 志 所 有 的 链接 才能 最 终 到 达 大 部 分 你 感 兴趣 的 Web 页 面 。 














注 1: http://www.neteraft.com 收集 了 大 量 统计 度量 值 ， 用 于 统计 Web 站 点 使 用 的 是 哪 种 类 型 的 服务 器 。 
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要 在 图 9-1 所 示 的 Web 上 惧 行 ， 使 用 哪个 根 集 比较 好 呢 ? 与 在 真实 的 Web 中 一 样 ， 
没有 哪个 文档 最 终 可 以 链接 到 所 有 其 他 文档 上 去 。 如 果 从 图 9-1 的 文档 A 开始 ， 可 
以 到 达 B、C 和 DDD， 然后 是 EE 和 FF， 然 后 到 J， 然 后 到 KK。 但 没有 从 A 到 G, 或 从 A 
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图 9-1 ” 根 集 要 能 够 到 达 所 有 的 页 面 


这 个 Web 结构 中 的 某 些 Web 页 面 ， 比 如 S、T 和 TU， 几 乎 是 被 隔离 开 来 的 一 一 它们 
是 孤立 的 ， 没 有 任何 链接 指向 它们 。 可 能 这 些 扳 独 的 页 面 是 一 些 新 页 面 ， 还 没 人 找 


到 它们 。 或 者 可 能 是 一 些 非常 老 的 或 不 显眼 的 页 面 。 


总 之 ， 根 集中 并 不 需要 有 很 多 页 面 ， 就 可 以 涵盖 一 大 片 Web 结构 。 在 图 9-1 中 ， 要 








抵达 所 有 页 面 ， 根 集中 只 需要 有 A、G 和 S 就 行 了 。 


通常 ， 一 个 好 的 根 集会 包括 一 些 大 的 流行 Web 站 点 (比如 http://www.yahoo.com)、 
一 个 新 创建 页 面 的 列表 和 一 个 不 经 常 被 链接 的 无 名 页 面 列表 。 很 多 大 规模 的 候 虫 产 
品 ， 比 如 因特网 搜索 引擎 使 用 的 那些 聆 虫 ， 都 为 用 户 提 供 了 向 根 集 中 提交 新 页 面 或 


无 名 页 面 的 方式 。 这 个 根 集会 随时 间 推 移 而 增长 ， 是 所 有 新 爬虫 的 种 子 列 表 。 


9.1.2 ”链接 的 提取 以 及 相对 链接 的 标准 化 


ERE Web 上 移动 时 ， 会 不 停 地 对 HTML 页 面 进行 解析 。 它 要 对 所 解析 的 每 个 页 


面 上 的 URL 链接 进行 分 析 ， 并 将 这 些 链接 添加 到 需要 扑 行 的 页 面 列表 中 去 。 


仆 虫 的 前 进 ， 当 其 发 现 需 要 探查 的 新 链接 时 ， 这 个 列表 常常 会 迅速 地 扩张 。 


随 着 


* f rf 


要 通过 简单 的 HTML 解析 ， 将 这 些 链接 提取 出 来 ， 并 将 相对 URL 转换 为 绝对 形式 。 


2.3.1 节 讨 论 了 如 何 进行 这 种 转换 。 





























注 2: 我 们 会 在 9.1.3 节 开 始 讨论 疏 虫 是 否 需 要 记 住 它们 到 过 何 处 。 在 惟 行 过 程 中 ， 这 个 已 发 现 URL 列表 会 


不 断 扩 张 ， 直 到 已 经 对 Web 空间 进行 了 彻底 的 探查 为 止 ， 这 时 惟 虫 就 会 到 达 一 个 不 再 发 现 新 链接 的 











状态 了 。 
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9.1.3 ”避免 环 路 的 出 现 


机 器 人 在 Web 上 疏 行 时 ， 要 特别 小 心 不 要 陷入 循环 ， 或 环 路 (cycle) 之 中 。 我 们 
来 看 看 图 9-2 ri Boo JR B , 





。 在 图 9-2a 中 ， 机 器 人 获取 页 面 A， 看 到 A 链接 到 B， 就 获取 页 面 B. 

° 在 图 9-2b 中 ， 机 器 人 获取 页 面 B， 看 到 B 链接 到 C， 就 获取 页 面 C. 

。 在 图 9-2c 中 ,机 器 人 获取 页 面 C, 会 看 到 C 链接 到 A。 如 果 机 器 人 再 次 获取 页 面 A， 
就 会 陷入 一 个 环 路 中 , 获取 A、 B,C, A, B, C Aves 


a : an PB E : Se > p ——- — E 















































= x y) 一 ` 
A. —[ i BH. M> B.» —RBR 
EN m 
(a) 机 器 人 获取 页 面 A， (b) 机 器 人 跟踪 链 (c) 机 器 人 跟踪 链接 ， 回 到 A 
跟踪 链接 ， 获 取 B 接 ， 获取 页 面 C 








9-2 在 Web bjeh PeT 


机 器 人 必须 知道 它们 到 过 何 处 ， 以 避免 环 路 的 出 现 。 环 路 会 造成 机 器 人 陷阱 ， 这 些 
陷阱 会 暂停 或 减缓 机 器 人 的 仆 行 进程 。 


9.1.4 循环 与 复制 
至 少 出 于 下 列 三 个 原因 ， 环 路 对 怜 虫 来 说 是 有 害 的 。 


。 它们 会 使 展 虫 陷入 可 能 会 将 其 困 住 的 循环 之 中 。 循 环 会 使 未 经 恨 好 设计 的 爬虫 不 
停 地 兜 园子， 把 所 有 时 间 都 耗费 在 不 停 地 获取 相同 的 页 面 上 。 怜 虫 会 消耗 掉 很 多 
网 络 带 宽 ， 可 能 完全 无 法 获取 任何 其 他 页 面 了 。 

。 疏 虫 不 断 地 获取 相同 的 页 面 时 ， 另 一 端的 Web 服务 器 也 在 遭受 着 打击 。 如 果 疏 

虫 与 服务 器 连接 良好 ， 它 就 会 击 夫 Web 站 点 ， 阻 止 所 有 真实 用 户 访问 这 个 站 点 。 

这 种 拒绝 服务 是 可 以 作为 法 律 诉 讼 理由 的 。 

即使 循环 自身 不 是 什么 问题 , 候 虫 也 是 在 获取 大 量 重复 的 页 面 [通常 被 称 为 "dups” 

(重复 )， 以 便 与 “loops”( 循 环 ) 押韵 ]。 扑 虫 应 用 程序 会 被 重复 的 内 容 所 充斥 ， 

这 样 应 用 程序 就 会 变 得 富 无 用 处 。 返 回 数 百 份 完 全 相同 页 面 的 因特网 搜索 引擎 就 

是 一 个 这 样 的 例子 。 
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9.1.5 面包 屠 留 下 的 痕迹 
但 是 ， 记 录 曾 经 到 过 哪些 地 方 并 不 总 是 一 件 容 易 的 事 。 编 写本 书 时 ， 因 特 网 上 有 数 
十 亿 个 不 同 的 Web 页 面 ， 其 中 还 不 包括 那些 由 动态 网 关 产 生 的 内 容 。 


An SEI (T EAT TEL ALT KE Web 内 容 ， 就 要 做 好 访问 数 十 亿 URL 的 准备 。 记 
录 下 哪些 URL 已 经 访问 过 了 是 件 很 具 挑战 的 事情 。 由 于 URL 的 数量 巨大 ， 所 以 ， 
要 使 用 复杂 的 数据 结构 以 便 快速 判定 哪些 URL 是 曾经 访问 过 的 。 数 据 结构 在 访问 速 
度 和 内 存 使 用 方面 都 应 该 是 非常 高 效 的 。 

数 亿 URL 需要 具备 快速 搜索 结构 ， 所 以 速度 是 很 重要 的 。 穷 举 搜索 URL 列表 是 根本 不 
可 能 的 。 机 器 人 有 至少 要 用 到 搜索 树 或 散 列表 ， 以 快速 判定 某 个 URL 是 否 被 访问 过 。 


数 亿 URL 还 会 占用 大 量 的 空间 。 如 果 平 均 每 个 URL 有 40 个 字符 长 ， 而 且 一 个 Web 
机 器 人 要 雁 行 5 亿 个 URL (只 是 Web 的 一 小 部 分 ) ， 那 么 搜索 数据 结构 只 是 存储 这 
Jt URL 就 需要 20GB 或 更 多 的 存储 空间 (40 字 节 /URL x5 亿 个 URL=20GB) | 

















这 里 列 出 了 大 规模 Web 爬虫 对 其 访问 过 的 地 址 进行 管理 时 使 用 的 一 些 有 用 的 技术 。 


° 树 和 散 列表 
复杂 的 机 器 人 可 能 会 用 搜索 树 或 散 列表 来 记录 已 访问 的 URL。 这 些 是 加 速 URL 
查找 的 软件 数据 结构 。 


。 有 损 的 存在 位 图 
为 了 减 小 空间 ， 一 些 大 型 仆 虫 会 使 用 有 损 数据 结构 ， 比 如 存在 位 数组 (presence 
bit array)。 用 一 个 散 列 函 数 将 每 个 URL 都 转换 成 一 个 定 长 的 数字 ， 这 个 数字 在 
数组 中 有 个 相关 的 “存在 位 ”。 疏 行 过 一 个 URL 时 ， 就 将 相应 的 “存在 位 ” 置 
位 。 如 果 存 在 位 已 经 置 位 了 ， 怜 虫 就 认为 已 经 爬行 过 那个 URL T. ` 





一 定 要 将 已 访问 URL 列表 保存 到 硬盘 上 ， 以 防 机 器 人 程序 崩溃 。 


随 着 Web 的 扩展 ， 在 一 台 计 算 机 上 通过 单个 机 器 人 来 完成 慌 行 就 变 得 不 太 现 实 
了 。 那 台 计 算 机 可 能 没有 足够 的 内 存 、 磁 盘 空 间 、 计 算 能 力 ， 或 网 络 带宽 来 完成 
RTEZ. 

















注 3: 由 于 URL 的 潜在 数量 是 无 限 的 ， 而 存在 位 数组 中 的 比特 数 是 有 限 的 ， 所 以 有 出 现 冲 突 的 可 能 一 两 
个 URL 可 能 会 映射 到 同一 个 存在 位 上 去 。 出 现 这 种 情况 时 ， 疏 虫 会 错误 地 认为 它 已 经 爬行 过 某 个 实 
际 未 爬行 过 的 页 面 了 。 在 实际 应 用 中 ， 使 用 大 量 的 存在 位 就 可 以 使 这 种 情况 极 少 发 生 。 产 生 冲 突 的 后 
果 就 是 限 虫 会 忽略 某 个 页 面 。 
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有 些 大 型 Web 机 器 人 会 使 用 机 器 人 “集群 "， 每 个 独立 的 计算 机 是 一 个 机 器 人 ， 
以 汇 接 方式 工作 。 为 每 个 机 器 人 分 配 一 个 特定 的 URL“ 片 ”， 由 其 负责 疏 行 。 这 
些 机 器 人 配合 工作 ， 疏 行 整个 Web。 机 器 人 个 体 之 间 可 能 需要 相互 通信 ， 来 回 传 
送 URL， 以 覆盖 出 故障 的 对 等 实体 的 聆 行 范 围 ， 或 协调 其 工作 。 

















Witten 等 人 编写 的 Managing Gigabytes: Compressing and Indexing Documents and 
Images (《 海 量 数 据 管 理 一 一 文档 和 图 像 的 压缩 与 索引 》)“，Morgan Kaufmann 出 版 
社 出 版 ， 是 实现 大 规模 数据 结构 的 很 好 的 参考 书 。 这 本 书 讲 的 全 是 管理 大 量 数据 所 
需 的 各 种 诀窍 和 技巧 。 











9.1.6 别名 与 机 器 人 环 路 

由 于 URL“ 别 名 ”的 存在 ， 即 使 使 用 了 正确 的 数据 结构 ， 有 时 也 很 难 分 辨 出 以 前 是 
否 访问 过 其 个 页 面 。 如 果 两 个 URL 看 起 来 不 一 样 ， 但 实际 指向 的 是 同一 资源 ， 就 称 
这 两 个 URL 互 为 “别名 ”。 

K 9-1 列 出 了 不 同 URL 指向 同一 资产 的 几 种 简单 方式 。 

表 9-1 同一 文档 的 不 同 URL 别 名 


第 一 个 URL 第 二 个 URL 什么 时 候 是 别名 

















a http://www.foo.com/bar.html http://www.foo.com:80/bar.html ”默认 端口 为 80 

b http://www.foo.com/-fred http://www.foo.com/967Ffred %7F 与 ~ 相同 

c http://www.foo.com/x.htmBfearly ^ http//www.foo.com/x.htmltmiddle ”标签 并 没有 修改 页 面 内 容 
d http://www.foo.com/readme.htm http:/www.foo.com/README.HTM 服务 器 是 大 小 写 无 关 的 

e http://www.foo.com/ http://www.foo.com/index.html 默认 页 面 为 index.html 


f http://www.foo.com/index.html http:/209.231.87.45/index.html www.foo.com 使 用 这 个 IP 地 址 


9.1.7 规范 化 URL 

大 多 数 Web 机 器 人 都 试图 通过 将 URL“ 规 范 化 ”为 标准 格式 来 消除 上 面 那些 显 而 
易 见 的 别名 。 机 器 人 首先 可 先 通过 下 列 步骤 将 每 个 URL 都 转化 为 规范 化 的 格式 。 

(D 如 果 没 有 指定 端口 的 话 ， 就 向 主机 名 中 添加 “:80”。 

(2) 将 所 有 转 义 符 %xx 都 转换 成 等 价 字符 。 

(3) 删除 # 标 签 。 




















注 4: 本 书 中 文 版 已 由 科学 出 版 社 出 版 。( 编 者 注 ) 











A 
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经 过 这 些 步 又 就 可 以 消除 表 9-1 中 a~c 所 列 的 别名 问题 了 。 但 如 果 不 知道 特定 Web 
服务 器 的 相关 信息 ， 机 器 人 就 没什么 好 办 法 来 避免 表 9-1 中 d~f 的 问题 了 。 





。 机 器 人 需要 知道 Web 服务 器 是 否 是 大 小 写 无 关 的 才能 避免 表 9-1d 中 的 别名 问题 。 

。 机 器 人 需要 知道 Web 服务 器 上 这 个 目录 下 的 索引 页 面 配置 才能 知道 表 9-le 中 的 
情况 是 否 是 别名 。 

° 即使 机 器 人 知道 表 9-1f 中 的 主机 名 和 了 IP 地 址 都 指向 同一 台 计 算 机 ， 它 也 还 要 
知道 Web 服务 器 是 否 配置 为 进行 (参见 第 5 XE) 虚拟 主机 操作 ， 才 能 知道 这 个 
URL 是 不 是 别名 。 





URL 规范 化 可 以 消除 一 些 基 本 的 语法 别名 ， 但 机 器 人 还 会 遇 到 其 他 的 、 将 URL f£ 
换 为 标准 形式 也 无 法 消除 的 URL 别名 。 


9.1.8 文件 系统 连接 环 路 

文件 系统 中 的 符号 连接 会 造成 特定 的 潜在 环 路 ， 因 为 它们 会 在 目录 层次 深度 有 限 的 
情况 下 ， 造 成 深度 无 限 的 假象 。 符 号 连接 环 路 通常 是 由 服务 器 管理 员 的 无 心 错误 造 
成 的 ， 但 “ 政 亚 的 网 管 ”也 可 能 会 恶意 地 为 机 器 人 制造 这 样 的 陷阱 。 























9-3 显示 了 两 个 文件 系统 。 在 图 9-3a 中 ，subdir 是 个 普通 的 目录 。 在 图 9-3b 中 ， 
subdir 是 个 指 回 到 “/” 的 符号 连接 。 在 这 两 个 图 中 ， 都 假设 文件 /index.html 中 包含 
了 一 个 指向 文件 subdir/index.html 的 超 链 。 





index.html subdir index.html subdir“ 


index.html logo.gif 


(a) subdir 是 个 目录 (b) subdir 是 个 向 上 的 符号 连接 











93 ”符号 连接 环 路 
使 用 图 9-3a 所 示 的 文件 系统 时 ，Web 扑 虫 可 能 会 采取 下 列 动 作 : 





(1) GET http://www.foo.com/index.html 
获取 /index.htm1， 找 到 指向 subdir/index.html 的 链接 。 
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(2) GET http://www.foo.com/subdir/index.html 
获取 subdirvindex.html， 找 到 指向 subdir/logo.gif 的 链接 。 


(3) GET http://www.foo.com/subdir/logo.gif 
获取 subdirvlogo.gif， 再 没有 链接 了 ， 结 束 。 


但 在 图 9-3b 的 文件 系统 中 ， 可 能 会 发 生 下 列 情况 : 


(1) GET http://www.foo.com/index.html 
获取 /index.htm1， 找 到 指向 subdir/index.html 的 链接 。 


(2) GET http://www.foo.com/subdir/index.html 
获取 subdir/index.html， 但 得 到 的 还 是 同一 个 index.html, 


(3) GET http://www.foo.com/subdir/subdir/index.html 
获取 subdir/subdir/index.html, 


(4) GET http://www.foo.com/subdir/subdir/subdir/index.html 
获取 subdir/subdir/subdir/index.html, 


图 9-3b 的 问题 是 subdir/ 是 个 指向 “/” 的 环 路 ， 但 由 于 URL 看 起 来 有 所 不 同 ， 所 以 
机 器 人 无 法 单 从 URL 本 身 判 断 出 文档 是 相同 的 。 毫 无 戒备 的 机 器 人 就 有 了 陷入 循环 
的 危险 。 如 果 没 有 某 种 循环 检测 方式 ， 这 个 环 路 就 会 继续 下 去 ， 通 常会 持续 到 URL 
的 长 度 超过 机 器 人 或 服务 器 的 限制 为 止 。 





9.1.9 动态 虚拟 Web 空 间 

恶意 网 管 可 能 会 有 意 创建 一 些 复杂 的 候 虫 循环 来 陷害 那些 无 就 的 、 毫 无 戒备 的 机 器 
人 。 尤 其 是 ， 发 布 一 个 看 起 来 像 普通 文件 ， 实 际 上 却 是 网 关 应 用 程序 的 URL 是 很 
容易 的 。 这 个 应 用 程序 可 以 在 传输 中 构造 出 包含 了 到 同一 服务 器 上 虚构 URL 链接 的 
HTML。 请 求 这 些 虚 构 的 URL 时 ， 这 个 邪恶 的 服务 器 就 会 捏造 出 一 个 带 有 新 的 虚构 
URL 的 新 HTML 页 面 来 。 











即使 这 个 恶意 Web 服务 器 实际 上 并 不 包含 任何 文件 ， 它 也 可 以 通过 无 限 虚 拟 的 Web 
空间 将 可 怜 的 机 器 人 带 入 爱丽 丝 漫 游 仙境 之 旅 。 更 糟 的 是 ， 每 次 的 URL 和 HTML 
看 起 来 都 有 很 大 的 不 同 ， 机 器 人 很 难 检测 到 环 路 。 图 9-4 显示 了 一 个 恶意 Web 服务 
器 生成 假 内 容 的 例子 。 











更 常见 的 情况 是 ， 那 些 没 有 恶意 的 网 管 们 可 能 会 在 无 意 中 通过 符号 连接 或 动态 内 容 
构造 出 仆 虫 陷阱 。 比 如 ， 我 们 来 看 一 个 基于 CGI 的 日 历程 序 ， 它 会 生成 一 个 月 历 和 
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一 个 指向 下 个 月 的 链接 。 真 正 的 用 户 是 不 会 不 停 地 请 求 下 个 月 的 链接 的 ， 但 不 了 解 
其 内 容 的 动态 特性 的 机 器 人 可 能 会 不 断 向 这 些 资源 发 出 无 穷 的 请 求 。” 








请 求 报 文 

GET /index-fall.html HTTP/1.1 
Host: www.evil-joes-hardware.com 
Accept: * 

User-agent: ShopBot 














响应 报 文 www.evil-Joes-hardware.com 














2 HTTP/1.1 200 OK 
- Content-type: text/html 
Content-length: 617 
DO [Me enne eee nennen eene 
b «HTML» «BODY» 
«A HREF-/index-fall2.html»trick«/A»[...] 
Web 机 器 人 客户 端 


请 求 报 文 


GET /index-fall2.html HTTP/1.1 
Host: www.evil-joes-hardware.com 


















































Accepts o o m ND c: g 
User-agent: ShopBot 
响应 报 文 www.evil-joes-hardware.com 
È HTTP/1.1 200 OK 
- Content-type: text/html 
Content-length: 617 
站 
p «HTML» «BODY» 
«A HREF-/index-fall3.html»trick«/A»[...] 
Web 机 器 人 客户 油 
有 几 个 站 点 上 只 字 ， 其 唯一 目的 就 是 用 假 内 容 来 陷害 毫 无 防备 的 机 器 人 。 
在 这 个 例子 中 ， 网 关 会 动态 生成 无 数 的 假 Web 页 面 ， 每 个 假 页面 都 指向 另 一 个 假 页 面 。 









































9-4 恶意 的 动态 Web 空间 示例 


9.1.10 ”避免 循环 和 重复 
没有 什么 简单 明了 的 方式 可 以 避免 所 有 的 环 路 。 实 际 上 ， 经 过 良好 设计 的 机 器 人 中 
要 包含 一 组 试探 方式 ， 以 避免 环 路 的 出 现 。 


总 的 说 来 ， 仆 虫 的 自动 化 程度 越 高 (人 为 的 监管 越 少 )， 越 可 能 陷入 麻烦 之 中 。 机 器 
人 的 实现 者 需要 做 一 些 取舍 一 一 这 些 试探 方式 有 助 于 避免 问题 的 出 现 ， 但 你 可 能 会 
终止 扫描 那些 看 起 来 可 疑 的 有 效 内 容 ， 因 此 这 种 方式 也 是 “有 损失 ”的 。 


在 机 器 人 会 遇 到 的 各 种 危险 的 Web 中， 有些 技 术 的 使 用 可 以 使 机 器 人 有 更 好 的 表现 。 





注 $: 这 是 http://www.searchtools.com/robots/robot-checklist.html 上 提 到 的 日 历 站 点 http://cgi.umbc.edu/cgi- 
bin/WebEvent/Webevent.cgi 上 的 真实 例子 。 这 样 的 动态 内 容 带 来 的 后 果 就 是 ， 很 多 机 器 人 都 拒绝 仆 行 
URL 中 包含 子 字符 串 “cgi” 的 页 面 。 


























Web 机 器 人 | 233 








223 








规范 化 URL 
将 URL 转换 为 标准 形式 以 避免 语法 上 的 别名 


广度 优先 的 您 行 

每 次 爬虫 都 有 大 量 潜在 的 URL 要 去 仆 行 。 以 广度 优先 的 方式 来 调度 URL 去 访问 
Web 站 点 ， 就 可 以 将 环 路 的 影响 最 小 化 。 即 使 碰 到 了 机 器 人 陷阱 ， 也 可 以 在 回 到 
环 路 中 获取 的 下 一 个 页 面 之 前 ， 从 其 他 Web 站 点 中 获取 成 百 上 千 的 页 面 。 如 果 
采用 深度 优先 方式 ， 一头 扎 到 单个 站 点 中 去 ， 就 可 能 会 跳 入 环 路 ， 永 远 无 法 访问 
其 他 站 点 。 ° 











节 流 “ 

限制 一 段 时 间 内 机 器 人 可 以 从 一 个 Web 站 点 获取 的 页 面 数量 。 如 果 机 器 人 跳 进 
了 一 个 环 路 ， 试 图 不 断 地 访问 某 个 站 点 的 别名 ， 也 可 以 通过 节 流 来 限制 重复 的 页 
面 总 数 和 对 服务 器 的 访问 总 数 。 


限制 URL 的 大 小 

机 器 人 可 能 会 拒绝 爬行 超出 特定 长 度 〈 通 常 是 1KB) 的 URL。 如 果 环 路 使 URL 
的 长 度 增加 ， 长 度 限制 就 会 最 终 终 止 这 个 环 路 。 有 些 Web 服务 器 在 使 用 长 URL 
时 会 失败 ， 因 此 ， 被 URL 增长 环 路 困 住 的 机 器 人 会 使 其 些 Web 服务 器 月 涡 。 这 
会 让 网 管 错误 地 将 机 器 人 当成 发 起 拒绝 服务 攻击 的 攻击 者 。 


要 小 心 ， 这 种 技术 肯定 会 让 你 错过 一 些 内 容 。 现 在 很 多 站 点 都 会 用 URL 来 管理 
用 户 的 状态 (比如 ， 在 一 个 页 面 引用 的 URL 中 存储 用 户 ID)。 用 URL 长 度 来 限 
制 念 虫 可 能 会 带 来 些 麻 烦 ， 但 如 果 每 当 请 求 的 URL 达到 某 个 特定 长 度 时 ， 都 记 
录 一 次 错误 的 话 ， 就 可 以 为 用 户 提供 一 种 检查 某 特定 站 点 上 所 发 生 情况 的 方法 。 


URL/ 站 点 黑 名 单 

维护 一 个 与 机 器 人 环 路 和 陷阱 相对 应 的 已 知 站 点 及 URL 列表 ， 然 后 像 躲避 瘟疫 
一 样 避 开 它 们 。 发 现 新 问题 时 ， 就 将 其 加 入 黑 名 单 。 

这 就 要 求 有 人 工 进 行 干 预 。 但 现在 很 多 大 型 疏 虫 产品 都 有 某 种 形式 的 黔 名单， 用 
于 避 开 某 些 存在 固有 问题 或 者 有 恶意 的 站 点 。 还 可 以 用 墨 名 单 来 避 开 那些 对 爬行 
大 惊 小 怪 的 站 点 。” 











ik 6: 


iE 7 


ik 8: 








总 之 ,广度 优 先 搜 索 是 个 好 方法 ， 这 样 可 以 更 均匀 地 分 配 请 求 ， 而 不 是 都 压 到 任意 一 台 服 务 器 上 去 。 
这 样 可 以 帮助 机 器 人 将 用 于 一 台 服 务 器 的 资源 保持 在 最 低 水 平 。 
: 在 9.5 市 也 讨论 了 请 求 率 的 市 流 问题 。 

9.4 市 讨论 了 站 点 怎样 才能 避免 被 仆 行 ， 但 有 些 用 户 拒 绝 使 用 这 种 简单 的 控制 机 制 ， 在 基站 点 被 仆 行 
时 又 会 变 得 非常 愤怒 。 
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。 模式 检测 
文件 系统 的 符号 连接 和 类 似 的 错误 配置 所 造成 的 环 路 会 遵循 某 种 模式 ， 比 如 ， 
URL 会 随 着 组 件 的 复制 逐渐 增加 。 有 些 机 器 人 会 将 具有 重复 组 件 的 URL >4 118 
在 的 环 路 ， 拒 绝 仆 行 带 有 多 于 两 或 三 个 重复 组 件 的 URL, 


重复 并 不 都 是 立即 出 现 的 (比如 ,，“/subdir/subdir/subdir...”)。 有 些 环 路 周期 可 能 
为 2 或 其 他 间隔 ， 比 如 “/subdirvimages/subdirimages/subdirimages/...”。 有 些 机 
器 人 会 查找 具有 几 种 不 同 周期 的 重复 模式 。 


。 内 容 指纹 
一 些 更 复杂 的 Web 爬虫 会 使 用 指纹 这 种 更 直接 的 方式 来 检测 重复 。 使 用 内 容 指 
纹 的 机 器 人 会 获取 页 面 内 容 中 的 字 节 ， 并 计算 出 一 个 校 验 和 (checksum)。 这 个 
校 验 和 是 页 面 内 容 的 压缩 表示 形式 。 如 果 机 器 人 获取 了 一 个 页 面 ， 而 此 页 面 的 校 
验 和 它 兽 经 见 过 ， 它 就 不 会 再 去 爬行 这 个 页 面 的 链接 了 一 一 如 果 机 器 人 以 前 见 过 
页 面 的 内 容 ， 它 就 已 经 爬行 过 页 面 上 的 链接 了 。 


必须 对 校 验 和 函数 进行 选择 ， 以 求 两 个 不 同 页 面 拥 有 相同 校 验 和 的 几率 非常 低 。 
MDS 这 样 的 报 文摘 要 函数 就 常 被 用 于 指纹 计算 。 


有 些 Web 服务 器 会 在 传输 过 程 中 对 页 面 进行 动态 的 修改 ， 所 以 有 时 机 器 人 会 在 
校 验 和 的 计算 中 忽略 Web 页 面 内 容 中 的 某 些 部 分 ， 比 如 那些 蔡 入 的 链接 。 而 且 ， 
无 论 定制 了 什么 页 面 内 容 的 动态 服务 器 端 包含 〈 比 如 添加 日 期 、 访 问 计 数 等 ) 都 
可 能 会 阻碍 重复 检测 。 











° 人 工 监 视 
Web 就 是 一 片 苑 野 。 勇 族 的 机 器 人 最 终 总 会 陷入 一 个 采用 任何 技术 都 无 能 为 力 的 
困境 。 设 计 所 有 产品 级 机 器 人 时 都 要 有 诊断 和 日 志 功 能 ， 这 样 人 类 才能 很 方便 地 
监视 机 器 人 的 进展 ， 如 果 发 生 了 什么 不 寻 篆 的 事情 就 可 以 很 快 收 到 警告 。 在 某 些 
情况 下 ， 愤 她 的 网 民 会 给 你 发 送 一 些 无 礼 的 邮件 来 提示 你 出 了 问题 。 


IET Web 这 样 规模 庞大 的 数据 集 时 ， 好 的 蜘蛛 探测 法 总 是 会 不 断 改进 其 工作 的 。 随 
着 新 的 资源 类 型 不 断 加 入 Web， 它 会 随 着 时 间 的 推移 构建 出 一 些 新 的 规则 ， 并 采纳 
这 些 规则 。 好 的 规则 总 是 在 不 断 发 展 之 中 的 。 


当 受 到 错误 爬虫 影响 的 资源 〈 服 务 器 、 网 络 带 宽 等 ) 处 于 可 管理 状态 ,或 者 处 于 
执行 腿 行 工作 的 人 的 控制 之 下 《比如 在 内 部 站 点 上 ) 时 ， 很 多 较 小 的 、 更 具 个 性 
的 爬虫 就 会 绕 开 这 些 问 题 。 这 些 扑 虫 更 多 的 是 依赖 人 类 的 监视 来 防止 这 些 问题 的 
发 生 。 
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9.2 机 器 人 的 HTTP 


机 器 人 和 所 有 其 他 HTTP 客户 端 程序 并 没有 什么 区 别 。 它 们 也 要 遵守 HTTP 规范 中 
的 规则 。 发 出 HTTP 请 求 并 将 自己 广播 成 HTTP/1.1 客户 端的 机 器 人 也 要 使 用 正确 
的 HTTP 请 求 首部 。 


很 多 机 器 人 都 试图 只 实现 请 求 它 们 所 查找 内 容 所 需 的 最 小 HTTP 集 。 这 会 引发 一 
些 问 题 ， 但 短期 内 这 种 行为 不 会 发 生 什 么 改变 。 结 果 就 是 ， 很 多 机 器 人 发 出 的 都 是 
HTTP/1.0 请 求 ， 因 为 这 个 协议 的 要 求 很 少 。 


9.2.1 识别 请 求 首部 

Maid uu ER EA pu DIM uo o 
只 别 首 部 首部 。 建 议 机 器 人 实现 者 们 发 送 一 些 

etre ERA E E 力 、 机 器 人 的 标识 符 ， 以 及 它 是 从 何 处 

起 源 的 。 


在 追踪 错误 爬虫 的 所 有 者 ， 以 及 向 服务 器 提供 机 器 人 所 能 处 理 的 内 容 类 型 时 ， 这 些 
信息 都 是 很 有 用 的 。 鼓 励 机 器 人 实现 者 们 使 用 的 基本 识别 首部 包括 如 下 内 容 。 














° User-Agent 


将 发 起 请 求 的 机 器 人 名 字 告 知 服务 器 


° From 
提供 机 器 人 的 用 户 /管理 者 的 E-mail 地 址 。” 

° Accept 
告知 服务 器 可 以 发 送 哪 些 媒体 类 型 。" 这 有 助 于 确保 机 器 人 只 接收 它 感 兴趣 的 内 
容 (文本 、 图 片 等 )。 





° Referer 


提供 包含 了 当前 请 求 URL 的 文档 的 URL, '' 


9.2.2 虚拟 主机 
机 器 人 实现 者 要 支持 Host 首部 。 随 着 虚拟 主机 (参见 第 5 章 ) 的 流行 ， 请 求 中 不 





šE 9: 一 种 RFC 822 E-mail 地 址 格式 。 

注 10: 3.5.2 市 列 出 了 所 有 Accept 相关 的 首部 ， 机 器 人 可 能 会 发 现 ， 如 果 它 们 对 特定 版 本 感 兴趣 的 话 ， 发 
送 Accept-Charset 之 类 的 首部 是 很 有 帮助 的 。 

注 11: 有 些 站 点 管理 者 会 尝试 着 记录 机 器 人 是 如 何 找到 指向 其 站 点 内 容 的 链接 的 ， 对 这 些 人 来 说 ， 这 个 
部 非常 有 用 。 
























































包含 Host 首部 的 话 ， 可 能 会 使 机 器 人 将 错误 的 内 容 与 一 个 特定 的 URL 关联 起 来 。 
因此 ，HTTP/1.1 要 求 使 用 Host 首部 。 


在 默认 情况 下 ， 大 多 数 服务 器 都 被 配置 为 提供 一 个 特定 的 站 点 。 因 此 ， 不 包含 Host 
首部 的 候 虫 向 提供 两 个 站 点 的 服务 器 发 起 请 求 时 ， 就 像 图 9-5 中 的 站 点 一 样 (www. 
joes-hardware.com 和 www.foo.com)， 假设 默 认 情 况 下 服务 器 被 配置 为 提供 www. 
joes-hardware.com 站 点 ( 且 不 需要 Host 首部 )， 那 么 ， 若 请 求 www.foo.com 上 的 
某 个 页 面 ， 仆 虫 实际 获取 的 就 是 Joe 的 五 金 商店 的 站 点 上 的 内 容 。 更 粳 糕 的 是 ， 疏 

会 认为 来 自 Joe 的 五 金 站 点 上 的 那些 内 容 是 来 自 www.foo.com 的 。 如 果 带 有 相对 
立 的 政治 色彩 或 其 他 观点 的 两 个 站 点 是 由 同一 台 服 务 器 提供 的 ， 你 肯定 能 想象 到 会 
有 更 不 幸 的 局 面 出 现 。 














* 


机 器 人 试图 从 www.foo.com 上 请 
qu 求 /index.html， 但 它 没 有 包含 Host 首 商 














服务 器 是 配置 为 提供 这 两 个 站 点 的 ， 但 上 默 




















noo o 认 情 况 下 提供 的 是 Joe 的 五 金 商店 的 站 点 。 
GET /index.htnd MITPÁTQO |o 07. 0 ee ba e b teens » 








User-agent: ShopBot 1.0 





www .joes-hardwar e.com 
响应 报 文 Www.foo.com 


HTTP/1.0 200 OK 





p c SSS s SSS) <HTML> 
人 to Joe's Hardware!</TITLE> 




















95 ”发 送 请 求 时 没有 携带 Host 首部 ， 虚 拟 docroot 会 引发 问题 的 例子 


923 ”条件 请 求 

鉴于 这 些 机 器 人 的 努力 程度 ， 尽 量 减 少 机 器 人 所 要 获取 内 容 的 数量 通常 是 很 有 意 》 
的 。 对 因特网 搜索 引擎 机 器 人 来 说 ， 需 要 下 载 的 潜在 页 面 有 数 十 亿 ， 所 以 ， 只 在 内 
容 发 生变 化 时 才 重 新 获取 内 容 是 很 有 意义 的 。 

有 些 机 器 人 实现 了 条 件 HTTP 请 求 ，” 它们 会 对 时 间 改 或 实体 标签 进行 比较 ， 看 看 
它们 最 近 获 取 的 版 本 是 否 已 经 升级 了 。 这 与 HTTP 缓存 查看 已 获取 资源 的 本 地 副 
本 是 否 有 效 的 方法 非常 相似 。 更 多 与 缓存 对 资源 本 地 副本 的 验证 有 关 的 信息 请 参见 
第 7 章 。 



































ik 12: 3.52 节 给 出 了 一 个 机 器 人 可 以 实现 的 条 件 首部 的 完整 列表 。 
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9.2.4 对 响应 的 处 理 
很 多 机 器 人 的 兴趣 主要 在 于 用 简单 的 GET 方法 来 获取 所 请 求 的 内 容 ， 所 以 ， 一 般 不 
会 在 处 理 响 应 的 方式 上 花费 太 多 时 间 。 但 是 ， 使 用 了 某 些 HTTP 特性 (比如 条 件 请 
RK) 的 机 器 人 ， 以 及 那些 想 要 更 好 地 探索 服务 器 ， 并 与 服务 器 进行 交互 的 机 器 人 则 
要 能 够 对 各 种 不 同类 型 的 HITP 响应 进行 处 理 。 











1. 状态 码 

总 之 ， 机 器 人 至 少 应 该 能 够 处 理 一 些 常见 的 ， 以 及 预期 的 状态 码 。 所 有 机 器 人 都 应 
该 理解 200 OK 和 404 Not Found 这 样 的 状态 码 。 它 们 还 应 该 能 够 根据 响应 的 一 般 类 
别 对 它 并 不 十 分 理解 的 状态 码 进行 处 理 。 第 3 章 的 表 3-2 给 出 了 不 同 状 态 码 的 分 类 
及 其 含义 。 

有 些 服 务 器 并 不 总 能 返回 适当 的 错误 代码 ， 认 识 到 这 一 点 是 很 重要 的 。 有 些 服务 器 
其 至 会 将 HTTP 状态 码 200 OK 与 描述 错误 状态 的 报 文 主体 文本 一 同 返 回 ! 很 难 对 
此 做 些 什么 一 一 只 是 实现 者 应 该 要 了 解 这 些 情况 。 


2. 实体 
除了 HTTP 首部 所 嵌 的 信息 之 外 ， 机 器 人 也 会 在 实体 中 查找 信息 。HTML 元 标签 ，” 
比如 元 标签 http-equiv， 就 是 内 容 编写 者 用 于 租 入 资源 附加 信息 的 一 种 方式 。 
服务 器 可 能 会 为 它 所 处 理 的 内 容 提供 一 些 首部 ， 标 签 http-equiv 为 内 容 编写 者 提 
供 了 一 种 覆盖 这 些 首 部 的 方式 : 

«meta http-equiv="Refresh" content="1;URL=index.html"> 


这 个 标签 会 指示 接收 者 处 理 这 个 文档 时 ， 要 当 作 其 HTTP 响应 首部 中 有 一 个 值 为 
1,URL=index.html 的 Refresh HTTP 首部 。 “ 








有 些 服务 器 实际 上 会 在 发 送 HTML 页 面 之 前 先 对 其 内 容 进 行 解析 ， 并 将 http-equiv 
间 令 作为 首部 包含 进去 ， 有 些 服务 器 则 不 会 。 机 器 人 实现 者 可 能 会 去 扫描 HTML X 
档 的 HEAD 组 件 ， 以 查找 http-equiv fill. ^ 





注 13: 9.4.7 节 列 出 了 一 些 附加 的 元 指令 ,站 点 管理 员 和 内 容 编 写 者 可 以 通过 这 些 元 指令 来 控制 机 器 人 的 行为 ， 
以 及 这 些 机 器 人 对 已 获取 文档 所 执行 的 操作 。 

注 14: 有 时 会 将 Refresh HTTP 首部 作为 将 用 户 (或 者 在 这 种 情况 下 ， 就 是 将 机 器 人 ) 从 一 个 页 面 重 定向 
到 另 一 个 页 面 的 手段 。 

注 15: 根据 HTML 的 规范 ， 元 标签 一 定 要 出 现在 HTML 文档 的 HEAD 部 分 。 但 并 不 是 所 有 的 HTML 文档 
都 会 遵循 规范 ， 因 此 ， 它 们 有 时 也 会 出 现在 HTML 文档 的 其 他 区 域 中 。 









































A 


238 | 第 9 章 


9.2.5 User-RAgent 导 回 

Web 管理 者 应 该 记 住 ， 会 有 很 多 的 机 器 人 来 访问 它们 的 站 点 ， 因 此 要 做 好 接收 机 
器 人 请 求 的 准备 。 很 多 站 点 会 为 不 同 的 用 户 代 理 进行 内 容 优 化 ， 并 尝试 着 对 浏览 器 
类 型 进行 检测 ， 以 确保 能 够 支持 各 种 站 点 特性 。 这 样 的 话 ， 当 实际 的 HTTP 客户 端 
根本 不 是 浏览 器 ， 而 是 机 器 人 的 时 候 ， 站 点 为 机 器 人 提供 的 就 会 是 出 错 页 面 而 不 是 
页 面 内 容 了 。 在 某 些 搜索 引擎 上 执行 文本 搜索 ， 搜 索 短语 “your browser does not 
support frames”( 你 的 浏览 器 不 支持 框架 )， 会 生成 一 个 包含 那 条 短语 的 出 错 页 面 
列表 。 

站 点 管理 者 应 该 设计 一 个 处 理 机 器 人 请 求 的 策略 。 比 如 ， 它 们 可 以 为 所 有 其 他 特性 
不 太 丰 富 的 浏览 器 和 机 器 人 开发 一 些 页 面 ， 而 不 是 将 其 内 容 限 定 在 特定 浏览 器 所 支 
持 的 范围 。 至 少 ， 管 理 者 应 该 知道 机 器 人 是 会 访问 其 站 点 的 ， 不 应 该 在 机 器 人 访问 
时 感到 独 不 及 防 。” 


^77 2 SI^ 
9.3 ”行为 不 当 的 机 器 人 
不 守 规 和气 的 机 器 人 会 造成 很 多 严重 问题 。 这 里 列 出 了 一 些 机 器 人 可 能 会 犯 的 错误 ， 
及 其 恶劣 行为 所 带 来 的 后 果 。 














。 失控 机 器 人 
机 器 人 发 起 HTTP 请 求 的 速度 要 比 在 Web 上 冲浪 的 人 类 快 得 多 ， 它 们 通常 都 运 
行 在 具有 快速 网 络 链 路 的 高 速 计算 机 上 。 如 果 机 器 人 存在 编程 逻辑 错误 ,或 者 陷 
入 了 环 路 之 中 ， 就 可 能 会 向 Web 服务 器 发 出 大 量 的 负载 一 一 很 可 能 会 使 服务 器 
过 载 ， 并 拒绝 为 任何 其 他 人 提供 服务 。 所 有 的 机 器 人 编写 者 都 必须 特别 小 心地 设 
计 一 些 保护 措施 ， 以 避免 失控 机 器 人 带 来 的 危害 。 








° 失效 的 URL 
有 些 机 器 人 会 去 访问 URL 列表 。 这 些 列表 可 能 很 老 了 。 如 果 一 个 Web 站 点 对 其 
内 容 进行 了 大 量 的 修改 ， 机 器 人 可 能 会 对 大 量 不 存在 的 URL 发 起 请 求 。 这 会 激 
AL ALUE Web 站 点 的 管理 员 ， 他 们 不 喜欢 他 们 的 错误 日 志 中 充满 了 对 不 存在 文档 
的 访问 请 求 ， 也 不 希望 提供 出 错 页 面 的 开销 降低 其 Web 服务 器 的 处 理 能 








。 很 长 的 错误 URL 
由 于 环 路 和 编程 错误 的 存在 ， 机 器 人 可 能 会 向 Web 站 点 请 求 一 些 很 大 的 、 无 意 
义 的 URL。 如 果 URL 足够 长 的 话 ， 就 会 降低 Web 服务 器 的 性 能 ， 使 Web 服务 





注 16: 如 果 某 站 点 上 有 一 些 不 应 该 让 机 器 人 访问 的 内 容 ， 站 点 管理 员 该 如 何 控制 机 器 人 在 其 站 点 上 的 行为 
呢 ? 9.4 节 给 出 了 相关 的 信息 。 
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器 的 访问 日 志 杂 乱 不 堪 ， 甚 至 会 使 一 些 比较 脆弱 的 Web 服务 器 崩溃。 


° 爱 打 听 的 机 器 人 
有 些 机 器 人 可 能 会 得 到 一 些 指向 私有 数据 的 URL， 这 样 ， 通 过 因特网 搜索 引擎 
和 其 他 应 用 程序 就 可 以 很 方便 地 访问 这 些 数 据 了 。 如 果 数 据 的 所 有 者 没有 主动 宣 
传 这 些 Web 页 面 ， 那 么 在 最 好 的 情况 下 ， 他 只 是 会 认为 机 器 人 的 发 布 行为 车 人 
讨厌 ， 而 在 最 坏 的 情况 下 ， 则 会 认为 这 种 行为 是 对 隐私 的 侵犯 。” 


通常 ， 发 生 这 种 情况 是 由 于 机 器 人 所 跟踪 的 、 指 向 “私有 ”内 容 的 超 链 已 经 存在 
了 (也 就 是 说 ， 这 些 内 容 并 不 像 其 所 有 者 认为 的 那么 隐 密 ,或 者 其 所 有 者 忘记 圳 
除 先 前 存在 的 超 链 了 ) 。 偶 尔 也 会 因为 机 器 人 非常 热 圳 于 寻找 某 站 点 上 的 文档 而 
出 现 这 种 情况 ， 很 可 能 就 是 在 没有 显 式 超 链 的 情况 下 去 获取 某 个 目录 的 内 容 造 
成 的 。 


从 Web 上 获取 大 量 数据 的 机 器 人 的 实现 者 们 应 该 清楚 ， 他 们 的 机 器 人 很 可 能 会 
在 某 些 地 方 获 得 敏感 的 数据 一 一 站 点 的 实现 者 不 希望 通过 因特网 能 够 访问 到 这 些 
数据 。 这 些 敏 感 数据 可 能 包含 密码 文件 ， 甚 至 是 信用 卡 信息 。 很 显然 ， 一 旦 被 指 
出 ， 就 应 该 有 某 种 机 制 可 以 将 这 些 数据 丢弃 (并 从 所 有 搜索 索引 或 归档 文件 中 将 
其 删除 ) ， 这 是 非常 重要 的 。 现 在 已 知 一 些 恶 意 使 用 搜索 引擎 和 归档 的 用 户 会 利 
用 大 型 Web 爬虫 来 查找 内 容 一 一 有 些 搜索 引擎 ， 比 如 Google, ”实际 上 会 对 它 
们 惧 行 过 的 页 面 进 行 归 档 ， 这 样 ， 即 使 内 容 被 删除 了 ， 在 一 段 时 间 内 还 是 可 以 找 
到 并 访问 它 。 



































。 动态 网 关 访 问 
机 器 人 并 不 总 是 知道 它们 访问 的 是 什么 内 容 。 机 器 人 可 能 会 获取 一 个 内 容 来 自 
网 关 应 用 程序 的 URL。 在 这 种 情况 下 ， 获 取 的 数据 可 能 会 有 特殊 的 目的 ， 计 算 
的 开销 可 能 很 高 。 很 多 Web 站 点 管理 员 并 不 喜欢 那些 去 请 求 网 关 文档 的 幼稚 机 
aA o 


9.4 拒绝 机 器 人 访问 


机 器 人 社团 能 够 理解 机 器 人 访问 Web 站 点 时 可 能 引发 的 问题 。1994 年 ， 人 们 提出 
了 一 项 简单 的 自愿 约束 技术 ， 可 以 将 机 器 人 阻挡 在 不 适合 它 的 地 方 之 外 ， 并 为 网 站 























注 17: 通常 ， 如 果 某 资源 可 以 通过 公共 因特网 获取 的 话 ， 它 很 可 能 会 在 某 处 被 引用 。 由 于 因特网 上 链 路 网 
的 存在 ， 很 少 有 资源 是 真正 私有 的 。 

注 18: 参见 http:Wwww.google.com 上 的 搜索 结果 。 已 缓存 链接 就 是 Google 爬虫 解析 并 索引 过 的 页 面 的 副本 ， 
大 多 数 搜索 结果 中 都 会 有 已 缓存 链接 。 
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管理 员 提供 了 一 种 能 够 更 好 地 控制 机 器 人 行为 的 机 制 。 这 个 标准 被 称 为 “拒绝 机 器 
人 访问 标准 "， 但 通常 只 是 根据 存储 访问 控制 信息 的 文件 而 将 其 称 为 robots.txt。 


robots.txt 的 思想 很 简单 。 所 有 Web 服务 器 都 可 以 在 服务 器 的 文档 根 目录 中 提供 一 
个 可 选 的 、 名 为 robots.txt 的 文件 。 这 个 文件 包含 的 信息 说 明了 机 器 人 可 以 访问 服务 
器 的 哪些 部 分 。 如 果 机 器 人 遵循 这 个 自愿 约束 标准 ， 它 会 在 访问 那个 站 点 的 所 有 其 
他 资源 之 前 ， 从 Web 站 点 请 求 robots.txt 文件 。 例 如 ， 图 9-6 中 的 机 器 人 想 要 从 Joe 
的 五 金 商 店 下 载 http://www.joes-hardware.com/specials/acetylene-torches.html , 但 在 
机 器 人 去 请 求 这 个 页 面 之 前 ， 要 先 去 查看 robots.txt 文件 ， 看 看 它 是 否 有 获取 这 个 页 
面 的 权限 。 在 这 个 例子 中 ，robots.txt 文件 并 没有 拦截 机 器 人 ， 因 此 机 器 人 获取 了 这 
个 页 面 。 





























Web 机 器 人 客户 端 www.joes-hardwar e.com 
| dee GET. /robots txt 
机 器 人 对 robots.txt 文 件 进行 UU 
解析 ， 判 断 是 否 人 允许 它 访 问 - MM 
X f'Facetylene-torches.html PS = eus 
允许 访问 ， 继 续 发 送 请 求 ET /specials/acet 
lila ylene-torches -html 
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图 9-6 在 爬行 目标 文件 之 前 ， 先 获取 robots.txt， 验 证 是 否 可 以 进行 访问 


9.4.1 拒绝 机 器 人 访问 标准 

拒绝 机 器 人 访问 标准 是 一 个 临时 标准 。 编 写本 书 的 时 候 还 没有 官方 标准 机 构 承 认 这 
个 标准 ， 不 同 的 厂商 实现 了 这 个 标准 的 不 同 子 集 。 但 是 ， 上 有 具备 一 些 对 机 器 人 访问 
Web 站 点 的 管理 能 力 ， 即 使 并 不 完美 ， 也 总 比 一 点 儿 都 没有 要 好 ， 而 且 大 部 分 主要 
的 生产 厂商 和 搜索 引擎 仆 虫 都 支持 这 个 拒绝 访问 标准 。 


尽管 没有 很 好 地 定义 版 本 的 名 称 ， 但 拒绝 机 器 人 访问 标准 是 有 三 个 版 本 的 。 我 们 采 
用 了 表 9-2 列 出 的 版 本 编号 。 
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表 9-2 ”拒绝 机 器 人 访问 标准 的 版 本 


版 本 标题 及 描述 日 期 
0.0 拒绝 机 器 人 标准 Martijn Koster 提出 的 带 有 Disallow (AÈ 1994 年 6 月 
Yr) 指令 的 原始 robots.txt 机 制 
1.0 控制 Web 机 器 人 的 方法 一 一 Martijn Koster 提供 了 额外 支持 Allow — 1996 4111 
(允许 ) HI IETF 草案 
2.0 拒绝 机 器 人 访问 的 扩展 标准 Sean Conner 提出 的 扩展 标准 ， 包 1996 年 11 月 
括 了 正则 表达 式 和 定时 信息 ， 没 有 得 到 广泛 的 支持 


























现在 大 多 数 机 器 人 采用 的 都 是 标准 v0.0 或 v1.0。 版 本 v2.0 要 复杂 得 多 ,没有 得 到 
广泛 的 应 用 。 可 能 永远 也 不 会 得 到 广泛 应 用 。 这 里 我 们 重点 介绍 v1.0 标准 ， 因 为 它 
的 应 用 很 广泛 ， 而 且 与 v0.0 完全 兼容 。 





9.4.2 Web 站 点 和 robots.txt 文 件 


如 果 一 个 Web 站 点 有 robots.txt 文件 ， 那 么 在 访问 这 个 Web 站 点 上 的 任意 URL 之 
前 ， 机 器 人 都 必须 获取 它 并 对 其 进行 处 理 。” 由 主机 名 和 端口 号 定义 的 整个 Web 站 
点 上 仅 有 一 个 robots.txt 资源 。 如 果 这 个 站 点 是 虚拟 主机 ， 每 个 虚拟 的 docroot 都 可 
以 有 一 个 不 同 的 robots.txt 文件 ， 像 所 有 其 他 文件 一 样 。 


通常 不 能 在 Web 站 点 上 单独 的 子 目录 中 安装 “本 地 ”robots.txt 文件 。 网 管 要 负责 
创建 一 个 聚合 型 robots.txt 文件 ， 用 以 描述 Web 站 点 上 所 有 内 容 的 拒绝 访问 规则 。 








1. 获取 robots.txt 


机 器 人 会 用 HTTP 的 GET 方法 来 获取 robots.txt 资源 ， 就 像 获 取 Web 服务 器 上 所 有 
其 他 资源 一 样 。 如 果 有 robots.txt 文件 的 话 ， 服 务 器 会 将 其 放 在 一 个 text/plain 主体 
中 返回 。 如 果 服 务 器 以 404 Not Found HTTP 状态 码 进行 响应 ， 机 器 人 就 可 以 认为 这 
个 服务 器 上 没有 机 器 人 访问 限制 ， 它 可 以 请 求 任意 的 文件 。 

机 器 人 应 该 在 From 首部 和 User-Agent 首部 中 传输 标识 信息 ， 以 帮助 站 点 管理 者 
对 机 器 人 的 访问 进行 跟踪 ， 并 在 站 点 管理 者 要 查询 ， 或 投诉 的 机 器 人 事件 中 提供 一 
些 联系 信息 。 下 面 是 一 个 来 自 商业 Web 机 器 人 的 HTTP Ehi RKA: 





GET /robots.txt HTTP/1.0 

Host: www.joes-hardware.com 
User-Agent: Slurp/2.0 

Date: Wed Oct 3 20:22:48 EST 2001 





注 19: 尽管 我 们 说 的 是 robots.txt 文件 ， 但 robots.txt 资源 并 不 一 定 要 严格 地 位 于 文件 系统 中 。 比 如 ， 可 以 
个 网 关 应 用 程序 动态 地 生成 这 个 robots.txt 资源 。 
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2. 响应 码 

很 多 Web 站 点 都 没有 robots.txt 资源 ， 但 机 器 人 并 不 知道 这 一 点 。 它 必须 尝试 着 从 

每 个 站 点 上 获取 robots.txt 资源 。 机 器 人 会 根据 对 robots.txt 检索 的 结果 采取 不 同 的 

行动 。 

° 如 果 服 务 器 以 一 个 成 功 状态 (HTTP 状态 码 2XX) 为 响应 ， 机 器 人 就 必须 对 内 容 
进行 解析 ， 并 使 用 排斥 规则 从 那个 站 点 上 获取 内 容 。 

。 如 果 服 务 器 响应 说 明 资 源 并 不 存在 (HTTP 状态 码 404) ， 机 器 人 就 可 以 认为 服务 
器 没有 激活 任何 排斥 规则 ， 对 此 站 点 的 访问 不 受 robots.txt 的 限制 。 

° 如 果 服 务 器 响应 说 明 有 访问 限制 (HTTP 状态 码 401 或 403)， 机 器 人 就 应 该 认为 
对 此 站 点 的 访问 是 完全 受 限 的 。 

。 如 果 请 求 尝试 的 结果 是 临时 故障 (HTTP 状态 码 503), ， 机 器 人 就 应 该 推迟 对 此 站 
点 的 访问 ， 直 到 可 以 获取 该 资源 为 止 。 

° 如 果 服 务 器 响应 说 明 是 重 定向 (HTTP 状态 码 3XX)， 机 器 人 就 应 该 跟着 重 定向 ， 
直到 找到 资源 为 止 。 


9.4.3 ”robots.txt 文 件 的 格式 

robots.txt 文件 采用 了 非常 简单 的 ， 面 向 行 的 语法 。robots.txt 文件 中 有 三 种 类 型 的 
行 : 空 行 、 注 释 行 和 规则 行 。 规 则 行 看 起 来 就 像 HTTP 首部 (<Field>:<value>) 
一 样 ， 用 于 模式 匹配 。 比 如 : 


# this robots.txt file allows Slurp & Webcrawler to crawl 











# the public parts of our site, but no other robots... 


User-Agent: slurp 
User-Agent: webcrawler 
Disallow: /private 


User-Agent: * 
Disallow: 


robots.txt 文件 中 的 行 可 以 从 逻辑 上 划分 成 “记录 ”。 每 条 记录 都 为 一 组 特定 的 机 
器 人 描述 了 一 组 排斥 规则 。 通 过 这 种 方式 ， 可 以 为 不 同 的 机 器 人 使 用 不 同 的 排斥 
规则 。 
每 条 记录 中 都 包含 了 一 组 规则 行 ， 由 一 个 空 行 或 文件 结束 符 终 止 。 记 录 以 一 个 
或 多 个 User-RAgent 行 开始 ， 说 明 哪 些 机 器 人 会 受 此 记录 的 影响 ， 后 面 跟着 一 些 
Disallow fU Allow 行 ， 用 来 说 明 这 些 机 器 人 可 以 访问 哪些 URL。” 
































注 20: 出 于 实际 应 用 的 原因 ， 机 器 人 软件 应 该 很 强壮 ， 可 以 灵活 地 使 用 行 结束 符 。 应 该 支持 CR. LF 和 
CRLF, 
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前 面 的 例子 显示 了 一 个 robots.txt 文件 ， 这 个 文件 允许 机 器 人 Slurp 和 Webcrawler 
访问 除了 private 子 目 录 下 那些 文件 之 外 所 有 的 文件 。 这 个 文件 还 会 阻止 所 有 其 他 机 
器 人 访问 那个 站 点 上 的 任何 内 容 。 





我 们 来 看 看 User-Agent. Disallow fl Allow fT. 


1. User-Agent 行 
每 个 机 器 人 记录 都 以 一 个 或 多 个 下 列 形式 的 User-Agent 行 开始 : 
User-Agent: <robot-name> 
或 
User-Agent: * 
在 机 器 人 HTTP GET 请 求 的 User-Agent 首部 中 发 送 (由 机 器 人 实现 者 选择 的 ) 机 
器 人 名 。 
机 器 人 处 理 robots.txt 文件 时 ， 它 所 遵循 的 记录 必须 符合 下 列 规则 之 一 : 
。 第 一 个 <robot -name> 是 机 器 人 名 的 大 小 写 无 关 的 子 字符 串 ， 


AA 


° 第 一 个 <robot-name> 为 “*”。 








如 果 机 器 人 无 法 找到 与 其 名 字 相 匹配 的 User-Agent 行 ， 而且 也 无 法 找到 通 配 的 
User-Agent:* 行 ， 就 是 没有 记录 与 之 匹配 ,访问 不 受 限 。 
由 于 机 器 人 名 是 与 大 小 写 无 关 的 子 字 符 串 进 行 匹 配 ， 所 以 要 小 心 不 要 匹配 错 了 。 比 如 ， 


User-Agent :bot 就 与 名 为 Bot、Robot、Bottom-Feeder、Spambot 和 Dont-Bother-Me 
的 所 有 机 器 人 相 匹 配 。 


2. Disallow 和 Allow 行 


Disallow 和 Allow 行 紧 跟 在 机 器 人 排斥 记录 的 User-Agent 行 之 后 。 用 来 说 明显 
式 禁 止 或 显 式 允许 特定 机 器 人 使 用 哪些 URL 路 径 。 


机 器 人 必须 将 期 望 访 问 的 URL 按 序 与 排斥 记录 中 所 有 的 Disallow 和 Allow 规 
则 进行 匹配 。 使 用 找到 的 第 一 个 匹配 项 。 如 果 没 有 找到 匹配 项 ， 就 说 明 允 许 使 用 这 
^- URL, ” 





注 21: 总 是 应 该 允许 访问 robots.txt 的 URL， 它 一 定 不 能 出 现在 Al1low/Disallow 规则 中 。 
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要 使 Allow/Disallow 行 与 一 个 URL 相 匹 配 ， 规 则 路 径 就 必须 是 URL 路 径 大 小 写 
相关 的 前 级 。 例 如 ，Disallow: /tmp 就 和 下 面 所 有 的 URL 相 匹 配 : 
http://www.joes-hardware.com/tmp 
http://www.joes-hardware.com/tmp/ 


http://www.joes-hardware.com/tmp/pliers.html 
http://www.joes-hardware.com/tmpspc/stuff.txt 


3. Disallow/AllowfBi 25 UL Ru 

Ti Disallow/Allow 前 组 匹配 的 一 些 细节 。 

° Disallow 和 Allow 规则 要 求 大 小 写 相 关 的 前 级 匹配 。( 与 User-Agent 行 不 同 ) 
这 里 的 星 号 没什么 特殊 的 含义 ， 但 空 字 符 串 可 以 起 到 通配符 的 效果 。 

° 在 进行 比较 之 前 ， 要 将 规则 路 径 或 URL 路 径 中 所 有 “被 转 义 ”的 字符 (WXX) 
都 反 转 为 字 节 (除了 正 斜 杠 %2F 之 外 ， 它 必须 严格 匹配 )。 

° 如 果 规 则 路 径 为 空 字符 串 ， 就 与 所 有 内 容 都 匹配 。 

d 9-3 列 出 了 几 个 在 规则 路 径 和 URL 路 径 间 进行 匹配 的 例子 。 


表 9-3 robots .txt 路 径 匹 配 示例 


























规则 路 径 URL 路 径 匹配 吗 ? 注 TE 
/tmp /tmp V 规则 路 径 == URL 路 径 
/tmp /tmpfile.html V 规则 路 径 是 URL PETSI) pi 28 
/tmp /tmp/a.html V 规则 路 径 是 URL 路 径 的 前 组 
/tmp/ /tmp x /tmp/ 不 是 /tmp 的 前 绥 

README.TXT v 室 的 规则 路 径 匹配 于 所 有 的 路 径 

/~fred/hi.html /%7Efred/hi.html v 将 %7E 与 ~ 同等 对 待 
/%7Efred/hi.html /~fred/hi.html v 将 %7E 与 ~ 同等 对 待 
/%7efred/hi.html /%7Efred/hi.html v 转 义 符 是 大 小 写 无 关 的 
/~fred/hi.html ~fred%2Fhi.html x %2F 是 一 个 斜 枉 ， 但 斜 杠 是 种 特殊 


情况 ， 必 须 完 全 匹配 





前 绥 匹 配 通常 都 能 很 好 地 工作 ， 但 有 几 种 情况 下 它 的 表达 力 却 不 够 强 。 如 有 果 你 希望 
无 论 使 用 什么 路 径 前 缀 ， 都 不 允许 执行 一 些 特别 的 子 目录 ， 那 robots.txt 是 无 能 
力 的 。 比 如 ， 你 可 能 希望 禁止 在 用 于 RCS 版 本 控制 的 子 目 录 中 殿 行 。 除 了 将 到 达 
各 RCS 子 目 录 的 每 条 路 径 都 分 别 枚 举 出 来 之 外 ，1.0 版 的 robots.txt 方案 无 法 提供 此 
功能 。 
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9.4.4 ”其 他 有 关 robots.txt 的 知识 
解析 robots.txt 文件 时 还 需 遵循 其 他 一 些 规则 。 


° 随 着 规范 的 发 展 ，robots.txt 文件 中 可 能 会 包含 除了 User-Agent, Disallow 和 
Allow 之 外 的 其 他 字段 。 机 器 人 应 该 将 所 有 它 不 理解 的 字段 都 忽略 掉 。 

° 为 了 实现 后 向 兼容 ， 不 能 在 中 间断 行 。 

注释 可 以 出 现在 文件 的 任何 地 方 ; 注释 包括 可 选 的 空格 , 以 及 后 面 的 注释 符 (#). 

注释 符 后 面 的 注释 ， 直 到 行 结束 符 为 止 。 

0.0 版 的 拒绝 机 器 人 访问 标准 并 不 支持 Allow 行 。 有 些 机 器 人 只 实现 了 0.0 版 的 

规范 ， 因 此 会 忽略 Allow 行 。 在 这 种 情况 下 ， 机 器 人 的 行为 会 比较 保守 ， 有 些 

允许 访问 的 URL 它 也 不 去 获取 。 








9.4.5 缓存 和 robots.txt 的 过 期 


如 果 一 个 机 器 人 在 每 次 访问 文件 之 前 都 要 重新 获取 robots.txt 文件 ，Web 服务 器 上 
的 负载 就 会 加 倍 ， 机 器 人 的 效率 也 会 降低 。 机 器 人 使 用 的 替代 方法 是 ， 它 会 周期 性 
地 获取 robots.txt 文件 ， 并 将 得 到 的 文件 缓存 起 来 。 机 器 人 会 使 用 这 个 robots.txt X 
件 的 缓存 副本 ， 直 到 其 过 期 为 止 。 原 始 服务 器 和 机 器 人 都 会 使 用 标准 的 HTTP 缓存 
控制 机 制 来 控制 robots.txt 文件 的 缓存 。 机 器 人 应 该 留意 HTTP 响应 中 的 Cache- 
Control 和 Expires BH PB, ^ 





现在 很 多 产品 级 不 虫 都 不 是 HTTP/1.1 的 客户 端 ， 网 管 应 该 意识 到 这 些 疏 虫 不 一 定 
能 够 理解 那些 为 robots.txt 资源 提供 的 缓存 指令 。 


如 果 没 有 提供 Cache-Control 指令 ， 规 范 草案 允许 将 其 缓存 7 天 。 但 实际 上 ， 这 
个 时 间 通 常 太 长 了 。 不 了 解 robots.txt 文件 的 Web 服务 器 管理 员 通 常会 在 响应 机 器 
人 的 访问 时 创建 一 个 新 的 文件 ， 但 如 果 将 缺乏 信息 的 robots.txt 文件 缓存 一 周 ， 新 创 
建 的 robots.txt 文件 就 没什么 效果 了 ， 站 点 管理 员 会 责怪 机 器 人 管理 员 没 有 遵守 拒绝 
机 器 人 访问 标准 。” 





























9.4.6 ”拒绝 机 器 人 访问 的 Perl 代 码 
有 几 个 公共 的 Perl 库 可 以 用 来 与 robots.txt 文件 进行 交互 。CPAN 公共 Perl 文档 中 
的 WWW: :RobotsRules 模块 就 是 一 个 这 样 的 例子 。 





注 22: 更 多 有 关 缓 存 指令 处 理 方面 的 内 容 请 参见 7.8 节 。 
注 23: 有 几 种 大 型 的 Web EE, WRC Web 上 勤奋 候 行 的 话 ， 每 天 都 会 重新 获取 robots.txt, 
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将 已 解析 的 robots.txt 文件 保存 在 www: :RobotRules 对 象 中 ， 这 个 对 象 提供 了 一 些 
方法 ， 可 以 用 于 查看 是 否 禁止 对 某 指定 URL 进行 访问 。 同 一 个 www: :RobotRules 
可 以 用 于 解析 多 个 robots.txt 文件 。 


下 面 是 WWW: :RobotRules API 的 一 些 主要 方法 。 


。 创建 RobotRules 对 象 


$rules = WWW::RobotRules-»new($robot name); 


。 装载 robots.txt 文件 


$rules-»parse($url, $content, $fresh_until); 


° 查看 站 点 URL 是 否 可 获取 


$can fetch = $rules-»allowed($url); 
下 面 这 个 短小 的 Perl 程序 说 明了 www: :RobotRules 的 用 法 : 
require WWW::RobotRules; 


# Create the RobotRules object, naming the robot "SuperRobot" 
my $robotsrules = new WWW::RobotRules 'SuperRobot/1.0'; 
use LWP::Simple qw(get); 


# Get and parse the robots.txt file for Joe's Hardware, accumulating 
# the rules 

$url = "http://www.joes-hardware.com/robots.txt"; 

my $robots txt = get $url; 

$robotsrules-»parse($url, $robots txt); 


# Get and parse the robots.txt file for Mary's Antiques, accumulating 
# the rules 

$url - "http://www.mary's antiques.com/robots.txt"; 

my $robots txt = get $url; 

$robotsrules-»parse($url, $robots txt); 


4 Now RobotRules contains the set of robot exclusion rules for several 
# different sites. It keeps them all separate. Now we can use RobotRules 
# to test if a robot is allowed to access various URLs. 

if ($robotsrules-»allowed($some target url)) 


( 


$c = get $url; 
} 
下 面 是 www.marys-antiques.com 的 假想 robots.txt 文件 : 


HHHRRRRHRRRRRRHRRRRERHRHRHRRRERHRHRHRHRRRHRHRHRHRRERHHRHRHRRRHRRHRRRERHWRRHRRRRHHEHWRHRRRHHRHRHRRHRHHH 
# This is the robots.txt file for Mary's Antiques web site 
TEEHEHERIEHERETHETHHETEHERHEEHETHETHHIUEREREEHEHEHHEEHEREHIERETETEHEHHEETHERHEREHERHEHHBHEHHIBHEHEHEHHHBBIB IG E 
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这 个 robots.txt 文件 中 包含 了 一 条 机 器 人 SuzySpider 的 记录 ， 一 条 机 器 人 FurnitureFinder 
的 记录 ， 以 及 一 条 用 于 所 有 其 他 机 器 人 的 默认 记录 。 每 条 记录 都 对 不 同 的 机 器 人 使 


# Keep Suzy's robot out of all the dynamic URLs because it doesn't 
# understand them, and out of all the private data, except for the 
# small section Mary has reserved on the site for Suzy. 


User-Agent: Suzy-Spider 
Disallow: /dynamic 

Allow: /private/suzy-stuff 
Disallow: /private 


The Furniture-Finder robot was specially designed to understand 
Mary's antique store's furniture inventory program, so let it 
crawl that resource, but keep it out of all the other dynamic 
resources and out of all the private data. 


dE db db dt 


User-Agent: Furniture-Finder 
Allow: /dynamic/check-inventory 
Disallow: /dynamic 

Disallow: /private 


# Keep everyone else out of the dynamic gateways and private data. 


User-Agent: * 
Disallow: /dynamic 





Disallow: /private 


用 了 一 组 不 同 的 访问 策略 。 


K 9-4 列 出 了 几 个 机 器 人 实例 ， 这 几 个 机 器 人 具有 不 同 的 Mary 古董 网 站 访问 权限 。 


SuzySpider 的 排斥 记录 不 允许 机 器 人 雁 行 以 /dynamic 开头 的 商店 库存 网 关 URL, 
以 及 在 为 Suzy 保留 的 区 域 之 外 的 其 他 私有 用 户 数据 。 

FurnitureFinder 机 器 人 的 记录 人 允许 机 器 人 雁 行 家 具 库 存 网 关 URL。 这 个 机 器 
能 能 够 理解 Mary 的 网 关 格 式 和 规则 。 


其 他 机 器 人 都 不 能 访问 所 有 的 动态 和 私有 Web 页 面 ， 但 它们 可 以 爬行 其 余 的 
URL, 


表 9-4 Mary 古 董 网 站 的 机 器 人 访问 权限 





URL SuzySpider  FurnitureFinder NosyBot 
http://www.marys-antiques.com/ V v v 
http://www.marys-antiques.com/index.html v v v 








( 续 ) 


URL SuzySpider FurnitureFinder NosyBot 





http://www.marys-antiques.com/private/payroll.xls x x x 


http://www.marys-antiques.com/private/suzy-stuff/ 


x x 
taxes.txt 
http://www.marys-antiques.com/dynamic/buy- x x x 
stuff?id-3546 
http://www.marys-antiques.com/dynamic/check- x v x 


inventory?kitchen 


9.4[.7 HTML 的 robot-control 元 标签 

robots.txt 文件 允许 站 点 管理 员 将 机 器 人 排除 在 Web 站 点 的 部 分 或 全 部 内 容 之 外 。 
robots.txt 文件 的 一 个 缺点 就 是 它 是 Web 站 点 管理 员 ， 而 不 是 各 部 分 内 容 的 作者 所 
有 的 。 


HTML 页 面 的 作者 有 一 种 更 直接 的 方式 可 以 限制 机 器 人 访问 那些 独立 的 页 面 。 他 
们 可 以 直接 在 HMTL 文档 中 添加 zobot-control 标签 。 遵 循 robot-control 
HTML 标签 规则 的 机 器 人 仍然 可 以 获取 文档 ， 但 如 果 其 中 有 机 器 人 排斥 标签 ， 它 们 
就 会 忽略 这 些 文档 。 比 如 ， 因 特 网 搜索 引擎 机 器 人 就 不 会 在 其 搜索 索引 中 包含 这 个 
目录 了 。 和 robots.txt 标准 一 样 ， 鼓 励 但 并 不 强制 使 用 这 个 标签 。 

















机 器 人 排斥 标签 是 以 如 下 形式 ， 通 过 HTML 的 META 标签 来 实现 的 : 


«META NAME-"ROBOTS" CONTENT=directive-list> 


1. 机 器 人 的 META 指 令 
机 器 人 META 指令 有 几 种 不 同 的 类 型 ， 而 且 随 着 时 间 的 推移 ， 以 及 搜索 引擎 及 机 器 
人 对 其 行为 和 特性 集 的 扩展 ， 很 可 能 还 会 添加 一 些 新 的 指令 。 最 常用 的 两 个 机 器 人 
META 指令 如 下 所 示 。 
° NOINDEX 
告诉 机 器 人 不 要 对 页 面 的 内 容 进 行 处 理 ， 忽 略 文档 (也 就 是 说 ， 不 要 在 任何 索引 
或 数据 库 中 包含 此 内 容 )。 





<META NAME="ROBOTS" CONTENT="NOINDEX"> 
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° NOFOLLOW 


告诉 机 器 人 不 要 扑 行 这 个 页 面 的 任何 外 连 链接 。 


<META NAME="ROBOTS" CONTENT="NOFOLLOW"> 


除了 NOINDEX 和 和 NOFOLLOW 之 外 ， 还 有 相对 应 的 INDEX 指令 、FoLLOW 指令 
NOARCHIVE 指令 以 及 ALL 和 NONE 指令 。 下 面 对 这 些 机 器 人 META 标签 指令 进行 
了 总 结 ° 


° INDEX 


告诉 机 器 人 它 可 以 对 页 面 的 内 容 进行 索引 。 


° FOLLOW 


告诉 机 器 人 它 可 以 爬行 页 面 上 的 任何 外 连 链接 。 


° NOARCHIVE 


告诉 机 器 人 不 应 该 缓存 这 个 页 面 的 本 地 副本 。™ 


° ALL 
等 价 于 INDEX. FOLLOW, 


。 NONE 
等 价 于 NOINDEX, NOFOLLOW, 


与 所 有 HTML 的 META 标签 类 似 ， 机 器 人 META 标签 必须 出 现在 HTML 页 面 的 
HEAD 区 域 中 : 
<html> 
<head> 
«meta name-"robots" content="noindex,nofollow"> 
«title»...«/title» 


«/head» 
«body» 


“body> 

</html> 
注意 ， 标 签 的 名 称 robots 和 内 容 都 是 大 小 写 无 关 的 。 
很 显然 ， 不 能 发 出 一 些 会 产生 冲突 或 重复 的 指令 ， 比 如 : 


«meta name-"robots" content="INDEX,NOINDEX,NOFOLLOW, FOLLOW, FOLLOW" > 








注 24: 那些 运行 Google 搜索 引擎 的 人 引入 这 个 META 标签 ， 是 为 了 向 网 管 提 供 一 种 不 允许 Google 提供 其 
内 容 缓 存 页 面 的 手段 。 此 标签 还 可 以 与 META NAME-"googlebot" 一 起 使 用 。 











这 种 指令 的 行为 很 可 能 是 未 定义 的 ， 肯 定 会 随机 器 人 实现 的 不 同 而 有 所 不 同 。 


2. 搜索 引擎 的 META 标 签 
我 们 刚刚 讨论 了 机 器 人 的 META 标签 ， 可 以 用 来 控制 Web 机 器 人 的 爬行 和 索引 行 
为 。 所 有 的 机 器 人 META 标签 中 都 包含 了 name="robots" 属性 。 


还 有 很 多 其 他 类 型 的 META 标签 可 用 ， 包 括 表 9-5 所 示 的 各 种 标签 。 对 内 容 索 引 型 
搜索 引擎 机 器 人 来 说 ，DESCRIPTION Í KEYWORDS META 标签 都 非常 有 用 。 





表 9-5 ”其 他 META 标 签 指令 


name= content= 描 述 


允许 作者 为 Web 页 面 定 义 一 个 短小 的 文本 摘要 。 很 多 搜索 引擎 都 

















DESCRIPTION < 文本 > 
会 查看 META DESCRIPTION 标签 ， 人 允许 页 面 作者 指定 一 些 短小 
的 摘要 来 描述 其 Web 页 面 
«meta name-"description" 
content-"Welcome to Mary's Antiques Web site"> 
KEYWORDS «YEA > 关联 一 个 由 逗号 分 隔 的 Web 页 面 描述 词 列 表 ， 为 关键 字 搜索 提供 
帮助 
«meta name-"keywords"  content-"antiques,mary,fu 


rniture,restoration"'"» 
告诉 机 器 人 或 搜索 引擎 应 该 在 指定 天 数 之 后 重 访 页 面 ， 估 计 那 时 
候 页 面 可 能 会 发 生变 化 


«meta name-"revisit-after" content-"10 days"> 








REVISIT-AFTERÓ < 天数 > 


9.5 ”机 器 人 的 规范 

1993 年 ，Web 机 器 人 社会 的 先驱 Martijn Koster 为 Web 机 器 人 的 编写 者 们 编写 了 
一 个 指南 列表 。 有 些 建议 已 经 过 时 了 ， 但 有 很 多 建议 仍然 非常 有 用 。 在 http://www. 
robotstxt.org/wc/guidelines.html 上 可 以 找到 Martijn 的 原始 论文 “Guidelines for 
Robot Writers”, 

K 9-6 是 为 机 器 人 设计 者 和 操作 人 员 提 供 的 现代 更 新 ， 这 些 更 新 的 建议 主要 还 是 建 
立 在 原始 列表 的 思想 和 内 容 之 上 的 。 大 部 分 指南 都 是 针对 万 维 网 机 器 人 提出 的 ; 但 
它们 同样 适用 于 较 小 规模 的 谎 虫 。 

















注 25: 这 个 指令 很 可 能 没有 得 到 广泛 的 支持 。 
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表 9-6 ”Web 机 器 人 操作 员 指 南 


操作 指南 


jü ë 





(1) 识别 
识别 你 的 机 器 人 


识别 你 的 机 器 


识别 联络 人 
(2) 操作 
保持 警惕 


做 好 准备 

















监视 并 记录 日 志 


学 习 并 适应 


(3) 约束 自己 的 行为 


对 URL 进行 过 滤 





过 滤 动 态 URL 


对 Accept 首部 进 和 


遵循 robots.txt 


了 过滤 


» HTTP 的 User-Agent 字段 将 机 器 人 的 名 字 
员 理解 机 器 人 所 做 的 事情 。 








JE- 5 助 管理 





o 目的 和 策略 的 URL 


确保 机 器 人 是 从 一 人 台 开 


够 将 机 器 人 的 IP 地 址 反 向 DNS 为 主机 名 。 这 有 助 于 管理 者 识别 


人 负责 的 组 织 


带 有 DNS 条 目的 机 器 上 运行 的 ， 这 样 


告诉 Web 服务 器 。 这 样 可 
有 些 机 器 人 还 会 在 User-Agent 








É Web 站 点 才能 








用 HTTP 的 From 字段 提供 一 个 联络 的 E-mail 地 址 


机 器 人 可 
的 机 器 人 造成 的 。 
要 全 天 


能 会 着 一 些 麻 烦 或 引发 一 些 抱怨 。 


性 运行 ， 就 要 格外 小 心 。 








其 中 一 些 是 











出 对 机 器 


那些 行为 有 偏差 











需要 有 操作 人 员 不 间断 


视 ， 直 到 它 有 了 丰富 的 经 验 为 止 





开始 一 次 重要 的 机 器 人 之 旅 时 ， 








一 定 要 通知 你 所 在 的 组 织 。 





要 观测 网 络 带 宽 的 耗费 ， 作 好 应 对 各 种 公共 查询 的 准备 





机 器 人 应 该 装备 有 丰富 的 诊断 和 日 志 


志 记 录 工 具 ， 这 样 才 











所 有 的 机 器 人 陷阱 ， 


进行 完整 性 检查 看 看 工作 是 否 








TER, | 








人 行为 的 重要 性 怎么 强调 也 不 过 分 。 
有 助 于 机 器 人 操作 者 回调 所 发 生 的 事情 。 


的 详细 记录 ， 
错 的 Web EE, mE 
和 记录 工作 都 是 非常 


在 每 次 爬行 中 你 都 











如 果 一 个 URL 指向 的 


跳 过 它 。 比 如 ， 以 .Z、 
结尾 的 URL 可 能 


或 归档 文件 。 以 .exe 





的 URL 很 可 能 是 图 片 。 


通常 ， 机 器 人 不 会 想 去 爬行 来 自 
正确 地 格式 化 查询 请 求 ， 并 将 其 发 送 给 网 关 ， 而 它 得 到 的 结 
错误 的 或 临时 的 。 如 果 一 个 URL 中 包含 了 cgi， 或 者 有 一 个 “? 

































































好 像 是 你 不 理解 或 不 感 兴趣 的 数据 ， 
gz, tar 或 者 








要 确保 你 得 到 的 就 是 你 想 要 的 























可 能 就 不 会 去 疏 行 这 个 URL. 了 





机 器 人 应 该 用 HTTP 的 Accept 首部 来 


机 器 人 应 该 接受 站 点 上 robots.txt 的 控制 


能 记录 进展 、 
监视 并 记录 机 器 


不 管 是 为 了 调试 出 
为 了 在 不 合理 的 投诉 面前 为 其 行为 进行 辩护 ， 监 视 
重要 的 


会 学 到 新 的 东西 。 
次 爬行 之 后 都 会 有 所 进步 ， 并 能 避 开 一 些 常 见 的 隐 


要 让 机 器 人 逐步 适应 ， 


zip 结尾 的 URL 很 可 能 是 压缩 文件 
就 是 程序 。 以 .gif、 


动态 网 关 的 内 容 。 机 器 人 不 知道 应 该 如 何 


一 定 要 小 心 ， 注 意 保 持 机 器 人 的 正常 行为 。 如 果 机 器 人 
地 对 机 器 人 进行 监 


你 的 组 织 可 能 


识别 





问题 和 抱怨 总 是 会 有 的 ， 对 座 虫 行为 








这 样 ， 它 在 每 





你 可 能 会 希望 


T 








.tf、.jpg 结尾 





采 也 很 可 能 是 
， 机 器 人 


告诉 服务 器 它 能 够 理解 哪 种 内 容 








操作 指南 


描 xh 











制约 自己 

















机 器 人 应 该 记录 访问 每 个 站 点 的 次 数 以 及 访问 的 时 间 ， 并 通过 这 些 信息 来 
确保 它 没有 太 频 繁 地 访问 某 个 站 点 。 机 器 人 访问 站 点 的 频率 高 于 儿 分 钟 一 
次 时 ， 管 理 员 就 要 起 疑心 了 。 机 器 人 每 隔 儿 秒 钟 就 访问 一 次 站 点 时 ， 有 些 
管理 员 就 会 生气 了 。 机 器 人 尽 可 能 频繁 地 去 访问 一 个 站 点 ， 将 所 有 其 他 流 
量 都 拒 之 门 外 时 ， 管 理 员 就 会 暴怒 起 来 。 
总 之 ， 应 该 限制 机 器 人 ， 使 其 每 分 钟 最 多 只 发 送 几 条 请 求 ， 并 确保 每 条 请 
求 之 间 有 几 秒 钟 的 间隔 。 还 应 该 限制 对 站 点 的 访问 总 次 数 ， 以 防止 环 路 的 
出 现 


























(4) 容忍 存在 环 路 、 重 复 和 其 他 问题 











处 理 所 有 返回 代码 
规范 URL 

积极 地 避免 环 路 的 出 现 
监视 陷阱 





维护 一 个 黑 名 单 





(5) 可 扩展 性 
了 解 所 需 空间 





了 解 所 需 带宽 





了 解 所 需 的 时 间 


必须 做 好 处 理 所 有 HTTP 状态 码 的 准备 ， 包 括 各 种 重 定向 和 错误 码 。 还 应 
该 对 这 些 代码 进行 记录 和 监视 。 如 果 某 站 点 出 现 大 量 不 成 功 的 结果 ， 就 应 
该 对 其 进行 调查 。 可 能 是 很 多 URL 过 期 了 ， 或 者 服务 器 拒绝 向 机 器 人 提 
供 这 些 文档 
试 着 将 所 有 URL 都 转化 为 标准 形式 来 消除 常见 的 别名 

努力 地 检测 并 避免 环 路 的 出 现 。 将 操纵 仆 虫 的 过 程 当 作 一 个 反馈 回路 。 应 
该 将 问题 的 结果 和 人 解决 方法 回馈 到 下 一 次 仆 行 中 ， 使 企 虫 在 每 次 迭代 之 后 
都 能 表现 得 更 好 

有 些 环 路 是 故意 造成 的 恶意 环 路 。 这 些 环 路 可 能 很 难 检测 。 有 的 站 点 会 带 
有 一 些 怪 异 的 URL， 要 监视 对 这 类 站 点 进行 的 大 量 访问 。 这 种 情况 可 能 就 
zE RAB 
找到 陷阱 、 环 路 、 故 障 站 点 和 不 希望 机 器 人 访问 的 站 点 时 ， 要 将 其 加 入 一 
个 黑 名 单 ， 不 要 再 次 访问 这 些 站 点 


































































































事先 通过 数学 计算 明确 你 要 解决 的 问题 规模 有 和 多大。 你 可 能 会 对 应 用 程序 
完成 一 项 机 器 人 任务 所 需 的 内 存 规模 感到 非常 吃惊 ,这 是 由 Web 庞大 的 
规模 造成 的 


了 解 你 有 多 少 网 络 带宽 可 用 ， 以 及 在 要 求 的 时 间 内 完成 机 器 人 任务 所 需 的 
带宽 大 小 。 监 视 网 络 带宽 的 实际 使 用 情况 。 你 很 可 能 会 发 现 输出 带宽 〈 请 
R) 要 比 输 入 带宽 (响应 ) 小 得 多 。 通 过 对 网 络 使 用 情况 的 监视 ， 可 能 还 
会 找到 一 些 方法 来 更 好 地 优化 你 的 机 器 人 ， 通 过 更 好 地 使 用 其 TCP 连接 
更 好 地 利用 网 络 带宽 ” 


了 解 机 器 人 完成 其 任务 所 需 花 费 的 时 间 ， 检 查 这 个 进度 是 否 与 自己 的 估计 


相符 。 如 果 机 器 人 的 耗费 与 自己 的 估计 相去 其 远 ， 可 能 就 会 有 问题 ， 需 要 
进行 调查 


E 
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E26: 更 多 有 关 TCP 性 能 优化 的 内 容 请 参见 第 4 章 。 
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操作 指南 


jS x 





分 而 治之 


(6) 可 靠 性 
彻底 测试 

















充分 理解 


积极 响应 








对 大 规模 的 爬行 来 说 ， 很 可 能 需要 使 用 更 多 的 硬 人 
使 用 带 有 多 个 网 卡 的 大 型 多 处 到 
共同 配合 工作 








TE: 





FEBL a ASH 











器 服务 器 ， 也 可 以 使 


备 时 ， 要 先进 行 几 次 小 型 的 处 女 航 。 收 集 大 量 结果 寺 


况 进 行 分 析 ， 估 计 
BUR P 
始 。 故 障 总 是 存在 的 : 你 会 发 现 一 些 软 从 
模 机 器 人 不 能 在 每 次 出 





重启 机 制 


预测 故障 的 发 生 ， 对 书 


机 器 人 可 能 会 让 很 多 人 感到 
个 Web 页 面 政策 声明 ， 对 机 器 人 进行 描述 ， 其 中 


的 详细 指南 
有 些 与 你 联系 ， 讨 论 机 器 人 问题 的 人 是 了 解 情 况 并 赞成 的 ， 有 些 人 则 很 幼 


稚 。 少 数 

















困惑 。 要 作 好 快速 响应 大 





HHI 





| 一 下 它们 会 怎样 累积 成 较 大 问题 


曹 的 机 器 人 都 要 保存 其 进展 的 快照 ， 出 现 故 障 时 可 
FAJ bug, TEH 




















来 完成 这 项 工作 ， 可 以 
用 多 台 较 小 的 计算 机 





去 之 前 ， 要 对 其 进行 彻底 的 内 部 测试 。 作 好 非 现场 测试 准 


E 能 和 内 存 使 用 情 





























以 从 那里 重新 开 








F 也 会 出 故障 。 大 规 
现 这 种 情况 时 都 从 头 开始 。 一 开始 就 要 设计 检查 点 / 





几 器 人 进行 设计 ， 使 其 能 够 在 发 生 故 障 时 继续 工作 


询问 的 准备 。 制 定 一 
Pp 包括 创建 robots.txt 文件 





会 异常 愤怒 。 有 些 人 看 起 来 好 像 都 要 发 疯 了 。 去 争辩 机 器 人 的 





努力 有 多 么 重要 通常 是 没什么 效果 的 。 向 他 们 解释 拒绝 机 器 人 访问 标准 ， 


如 果 他 们 仍然 很 不 高 兴 ， 就 立即 将 投诉 者 的 URL 从 疏 行 列表 中 删除 ， 并 














将 


大 多 数 不 满意 的 网 管 都 只 是 不 太 了 解 机 器 人 。 如 果 


其 加 入 黑 名 单 


ü 








m 


pr 
小 用 








够 进行 迅速 且 专 业 





向 应 ，90% 的 投诉 都 会 很 快 消失 。 另 一 方面 ， 如 果 你 等 好 儿 天 才 响 应 ， 
而 机 器 人 在 继续 访问 这 个 站 点 ， 你 面 对 的 就 将 是 一 个 非常 愤怒 的 对 手 


96 ”搜索 引擎 


得 到 最 广泛 使 用 的 Web 机 器 人 都 是 因特网 搜索 引擎 。 因 特 网 搜索 引擎 可 以 帮助 用 户 
找到 世界 范围 内 涉及 任意 主题 的 文档 。 


们 会 为 用 户 提供 宝贵 的 服务 ， 帮 助 用 户 找到 他 们 感 兴趣 的 信息 。 


Web 扑 虫 为 因特网 搜索 引擎 提供 信息 ， 它 们 获取 Web 上 的 文档 ， 并 人 允许 搜索 引擎 
创建 与 本 书后 面 的 索引 类 似 的 索引 ， 用 以 说 明 哪些 文档 中 有 哪些 词 存在 。 搜 索引 人 擎 
是 Web 机 器 人 的 主要 来 源 一 一 让 我 们 来 快速 了 解 一 下 它们 是 如 何 工作 的 。 








现在 Web 上 很 多 最 流行 的 站 点 都 是 搜索 引擎 。 很 多 Web 用 户 将 其 作为 起 始点 ， 它 
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9.6.1 大 格局 

Web 发 展 的 初期 ， 搜 索引 擎 就 是 一 些 相 当 简 单 的 数据 库 ， 可 以 帮助 用 户 在 Web 上 
定位 文档 。 现 在 ，Web 上 有 数 十 亿 可 供 访 问 的 页 面 ， 搜 索引 擎 已 经 成 为 因特网 用 户 
查找 信息 不 可 缺少 的 工具 。 它 们 在 不 断 地 发 展 ， 以 应 对 Web 庞大 的 规模 ， 因 此 ， 现 
在 已 经 变 得 相当 复杂 了 。 


面 对 数 十 亿 的 Web 页 面 ， 和 数 百 万 要 查找 信息 的 用 户 ， 搜 索引 擎 要 用 复杂 的 仆 虫 
来 获取 这 数 十 亿 Web 页 面 ， 还 要 使 用 复杂 的 查询 引擎 来 处 理 数 百 万 用 户 产生 的 查 
Vg fuir. 

我 们 来 考虑 一 下 产品 级 Web 爬虫 的 任务 ， 它 要 慕 取 搜 索索 引 所 需 的 页 面 ， 它 要 发 出 
数 十 亿 条 HTTP 请 求 。 如 果 每 条 请 求 都 要 花 半 秒 钟 的 时 间 (对 有 些 服务 器 来 说 可 能 
慢 了 ， 对 另 一 些 服务 器 来 说 可 能 快 了 ”)，( 对 十 亿 份 文件 来 说 ) 就 要 花费 : 











0.5 秒 x (100 0000 000) / (60 秒 /天 ) x (60 分 /小 时 ) x (24 小 时 /天 ) 


如 果 请 求 是 连续 发 出 的 ， 结 果 差 不 多 是 5700 天 ! 很 显然 ， 大 型 候 虫 得 更 聪明 一 些 ， 
要 对 请 求 进行 并 行 处 理 ， 并 使 用 大 量 机 器 来 完成 这 项 任务 。 但 由 于 其 规模 庞大 ， 爬 
行 整个 Web 仍然 是 件 十 分 艰巨 的 任务 。 


9.6.2 ”现代 搜索 引擎 结构 


现在 的 搜索 引擎 都 构建 了 一 些 名 为 “全 文 索引 ”的 复杂 本 地 数据 库 ， 装 载 了 全 世界 
的 Web 页 面 ， 以 及 这 些 页 面 所 包含 的 内 容 。 这 些 索引 就 像 Web 上 所 有 文档 的 卡片 
目录 一 样 。 


搜索 引擎 念 虫 会 搜集 Web 页 面 ， 把 它们 带 回 家 ， 并 将 其 添加 到 全 文 索 引 中 去 。 同 
时 ， 搜 索引 擎 用 户 会 通过 HotBot (http://www.hotbot.com) 或 Google (http://www. 
google.com) 这 样 的 Web 搜索 网 关 对 全 文 索引 进行 查询 。Web 页 面 总 是 在 不 断 地 
发 生变 化 ， 而 且 怜 行 一 大 块 Web 要 花费 很 长 的 时 间 ， 所 以 全 文 索引 充其量 也 就 是 
Web 的 一 个 快照 。 





现代 搜索 引擎 的 高 层 结构 如 图 9-7 所 示 。 





9.6(8 全文 索 引 
全 文 索引 就 是 一 个 数据 库 ， 给 它 一 个 单词 ， 它 可 以 立即 提供 包含 那个 单词 的 所 有 文 
档 。 创 建 了 索引 之 后 ， 就 不 需要 对 文档 自身 进行 扫描 了 。 


注 27: 这 取决 于 服务 器 的 资源 、 客 户 端的 机 器 人 ， 以 及 两 者 之 间 的 网 络 状况 。 
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L. Web 搜 索 网 关 REEERE RASES Ea Web 服务 器 




















用 户 
用 户 Web 服 务 器 
Web 搜 索 用 户 查询 索引 疏 行 及 索引 











图 9-7 ”产品 级 搜索 引擎 中 包含 了 一 些 协 作 的 仆 虫 和 查询 网 关 
图 9-8 显示 了 三 份 文档 和 相应 的 全 文 索引 。 全 文 索引 列 出 了 包含 每 个 单词 的 文档 。 
































































































































单词 文档 
a AJB 
best A| |C 
A bu A 
We have the best 一 à B 
tools,like the electric 
WorkMaster 5000 fat C 
electric drill. Buy a fire B 
drill from us today! 
—— — from A 
B have A 
h. — I: into B 
The routine fire — know C 
drill turned into lose C 
a tragedy today... routine C 
the A B|C 
C to C 
| today A|B 
We know the tools A 
best routine tragedy B 
to lose fat. turned B 
US A 
we A| |C 
workmaster A 























图 9-8 三 份 文 档 和 一 个 全 文 索引 
比如 : 
° 单词 “a” 位 于 文档 A 和 B d 
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。 单词 “best” 位 于 文档 A 和 C 中， 

。 单词 “drill” 位 于 文档 A 和 B rB; 

。 单词 “routine” 位 于 文档 B 和 C 中，; 

。 单词 “the” 位 于 所 有 的 三 份 文档 A、B 和 C 中。 


9.6.4 发 布 查询 请 求 

用 户 向 Web 搜索 引擎 网 关 发 布 一 条 请 求 时 ， 会 填写 一 个 HTML 表单 ， 他 的 浏览 器 
会 用 一 个 HTTP GET 或 POST 请 求 将 这 个 表单 发 送 给 网 关 。 网 关 程 序 对 搜索 请 求 进 
行 解析 ， 并 将 Web UI 查询 转换 成 搜索 全 文 索 引 所 需 的 表达 式 。” 


9-9 显示 了 一 条 对 www.joes-hardware.com 站 点 的 简单 用 户 查 询 。 用 户 在 搜索 框 
表单 中 输入 drills， 然 后 浏览 器 就 会 将 这 个 动作 转换 成 一 条 在 URL 中 包含 请 求 参数 
的 GET 请 求 。”Joe 的 五 金 商店 的 Web 服务 器 收 到 这 条 请 求 ， 并 将 其 转发 给 其 搜索 
网 关 应 用 程序 ， 这 个 程序 会 将 文档 的 结果 列表 返回 给 Web 服务 器 ， 然 后 Web 服务 
器 又 会 将 这 些 结果 转换 成 HTML 页 面 提供 给 用 户 。 














Welcome to Joes Hardware 











Search for: | drills US E" 




















L^ 户 在 浏览 器 中 填写 站 点 的 HTML 搜 索 表 单 (通过 

















HTTP 方 法 的 GET 动 作 ) ， 单 击 Submit (提交 ) 
请 求 报 文 ; : 
t Aif: drills 
GET /search.html?query=drills HTTP/1.1 
Host: We. oes shar dane con MASS > 
ccept: 
User-agent: ShopBot | ÆA: 文件 BD.html E: 
www .joes-hardware.com 搜索 网 关 


响应 报 文 


HTTP/1.1 200 OK 
Content-type: text/html 
Content-length: 1037 





«HTML» 
«HEAD»«TITLE»Search Results«/TITLE» 
ñ 2) PD tp aK and Decker Drills</A> 




















9-9 搜索 查询 请 求 的 实例 


注 28: 传送 这 条 请 求 的 方法 与 所 使 用 的 搜索 策略 有 关 。 
注 29: 22.6 节 讨 论 了 URL 中 查询 参数 的 常见 用 法 。 








Web 机 器 人 | 257 








243 














244 














245 








9.6.5 ”对 结果 进行 排序 ， 并 提供 查询 结果 
一 旦 搜索 引擎 通过 其 索引 得 到 了 查询 结果 ， 网 关 应 用 程序 会 获取 结果 ， 并 将 其 拼 成 
结果 页 面 提供 给 终端 用 户 。 


很 多 Web 页 面 都 可 能 包含 任意 指定 的 单词 ， 所 以 搜索 引擎 采 用 了 一 些 很 聪明 的 算 
法 ， 尝 试 着 对 结果 进行 排名 。 比 如 ， 在 图 9-8 中 ， 单 词 best 出 现在 很 多 文档 中 ; 为 
了 将 相关 度 最 高 的 结果 提供 给 用 户 ， 搜 索引 擎 要 知道 应 该 按照 什么 顺序 来 提供 结果 
列表 中 的 文档 。 这 被 称 为 相关 性 排名 (relevancy ranking) 一 一 这 是 对 一 系列 搜索 结 
果 的 评分 和 排序 处 理 。 


为 了 更 好 地 辅助 这 一 进程 ， 在 仆 行 Web 的 过 程 中 都 会 进行 数据 统计 。 比 如 ， 对 指向 
指定 页 面 的 链接 进行 计数 有 助 于 判断 其 流行 程度 ， 还 可 以 用 此 信息 来 衡量 提供 结果 
的 顺序 。 算 法 、 疏 行 中 获取 的 辅助 信息 以 及 搜索 引擎 所 使 用 的 其 他 技巧 都 是 保守 最 
森严 的 秘密 。 














9.6.6 ”欺诈 

在 搜索 请 求 得 到 的 前 几 个 结果 中 没有 看 到 自己 想 要 查找 的 内 容 时 ， 用 户 通常 会 感到 
很 诅 形 ， 因 此 ， 查 找 站 点 时 搜索 结果 的 顺序 是 很 重要 的 。 在 搜索 网 管 们 认为 能 够 最 
好 地 描述 其 站 点 功能 的 单词 时 ， 会 有 众多 因素 激励 着 这 些 网 管 ， 努 力 使 其 站 点 排 在 
靠近 结果 顶端 的 位 置 上 ， 尤 其 是 那些 依赖 于 用 户 找到 它们 ， 并 使 用 其 服务 的 商业 
站 点 。 

这 种 对 较 好 排列 位 置 的 期 待 引 发 了 很 多 对 搜索 系统 的 博弈 ， 也 在 搜索 引擎 的 实现 者 
和 那些 想方设法 要 将 其 站 点 列 在 突出 位 置 的 人 之 间 引 发 了 持久 的 拉锯 战 。 很 多 网 
管 都 列 出 了 无 数 关 键 字 (有 些 是 上 毫 不 相关 的 )， 使 用 一 些 假冒 页 面 ， 或 者 采用 欺诈 
(spoof) 行为 一 一 甚至 会 用 网 关 应 用 程序 来 生成 一 些 在 某 些 特定 单词 上 可 以 更 好 地 
其 骗 搜索 引擎 相关 性 算法 的 假冒 页 面 。 

这 么 做 的 结果 就 是 ， 搜 索引 擎 和 机 器 人 实现 者 们 要 不 断 地 修改 相关 性 算法 ， 以 便 更 
有 效 地 抓 住 这 些 其 诈 者 。 


9.7 更 多 信息 


更 多 有 关 Web 客户 端的 信息 ， 请 参见 下 列 资料 。 























° http://www.robotstxt.org/wc/robots.html 


Web 机 器 人 页 面 一 一 机 器 人 开发 者 所 需 的 资源 ， 包 括 因特网 机 器 人 的 登记 注册 。 
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http://www.searchengineworld.com 


搜索 引擎 世界 一 一 搜索 引擎 和 机 器 人 的 相关 资源 。 


http://www.searchtools.com 


Web 站 点 和 内 部 网 络 的 搜索 工具 一 一 搜索 工具 和 机 器 人 的 相关 资源 。 


http://search.cpan.org/doc/ILY AZ/perl ste/WWW/RobotRules.pm 
RobotRules 的 Perl 语言 资源 。 


http://www.conman.org/people/spc/robots2.html 


拒绝 机 器 人 访问 的 扩展 标准 。 











Managing Gigabytes: Compressing and Indexing Documents and Images (海量 数 
据 管理 一 一 文档 和 图 像 的 压缩 与 索引 》) 
Witten, L, Moffat, A. 和 Bell, T. 编写 ，Morgan Kaufmann 公司 出 版 。 246 
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HTTP-NG 
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在 这 本 书 即将 完稿 的 时 候 ，HTTP 正在 庆祝 它 的 第 十 个 生日 。 这 十 年 是 这 个 因特网 
协议 成 就 辉煌 的 十 年 。 现 在 ， 世 界 上 绝 大 多 数 的 数字 流量 都 是 由 HTTP 传输 的 。 


但 随 着 HTTP 迈 入 青少年 时 期 ， 它 也 面临 着 一 些 挑战 。 从 某 些 方面 来 说 ，HTTP 应 
用 的 步伐 已 经 超越 了 其 设计 。 现 在 ， 人 们 将 HTTP 作为 各 种 不 同 应 用 程序 的 基础 ， 
并 将 其 运行 在 很 多 不 同 的 联网 技术 之 上 。 


本 章 对 HTTP 未 来 的 一 些 发 展 趋势 和 所 要 面临 的 挑战 ， 以 及 被 称 为 HTTP-NG 的 下 
一 代 HTTP 结构 方案 进行 了 介绍 。 尽 管 HTTP-NG 工作 组 已 经 解散 了 ， 而 且 看 起 来 
也 不 大 可 能 得 到 快速 的 应 用 ， 但 它 还 是 给 出 了 HTTP 未 来 一 些 潜在 的 发 展 方向 。 


10.1 HTTP 发 展 中 存在 的 问题 


HTTP 最 初 被 设想 为 一 种 简单 的 技术 ， 用 于 访问 分 布 式 信息 服务 器 上 链接 的 多 媒体 
内 容 。 但 在 过 去 的 十 年 中 ，HTTP 及 其 衍生 产品 起 到 了 更 为 广泛 的 作用 。 


HTTP/1.1 现在 提供 了 可 以 追踪 文档 版 本 的 标记 和 指纹 ， 提 供 了 一 些 方法 来 支持 文档 
的 上 传 以 及 与 可 编程 网 关 之 间 的 交互 ， 还 提供 对 多 语言 内 容 、 安 全 及 认证 功能 、 降 
低 流量 的 缓存 功能 、 减 小 时 延 的 管道 功能 、 降 低 启动 时 间 提 高 带宽 使 用 效率 的 持久 
连接 ， 以 及 用 来 进行 部 分 更 新 的 访问 范围 功能 的 支持 。HTTP 的 扩展 及 衍生 产品 具 
有 更 为 广泛 的 功能 ， 可 以 提供 对 文档 发 布 、 应 用 程序 服务 、 任 意 的 消息 服务 、 视 频 
流 以 及 无 线 多 媒体 访问 的 支持 。HTTP 正在 成 为 分 布 式 多 媒体 应 用 程序 的 “操作 系统 ”。 


尽管 HTTP/1.1 的 设计 经 过 了 充分 的 考量 ， 但 随 着 HTTP 被 越 来 越 多 地 用 作 复 杂 远 
程 操 作 的 统一 载体 ，HTTP/1.1 已 经 开始 显现 出 了 一 些 局 限 性 。HTTP 的 发 展 中 至 少 
存在 4 个 方面 的 问题 。 

















。 复杂 性 
HTTP 相当 复杂 ， 而 且 其 特性 之 间 是 相互 依存 的 。 由 于 存在 一 些 复杂 的 、 相 互 交 
织 的 要 求 ， 以 及 连接 管理 、 报 文 处 理 和 功能 逻辑 之 间 的 混合 作用 ， 要 想 正确 地 实 
H HTTP 软件 肯定 是 非常 痛苦 、 很 容易 出 错 的 。 








。 可 扩展 性 
HTTP 很 难 实现 递增 式 扩展 。 很 多 流传 下 来 的 HTTP 应 用 程序 中 都 没有 自主 的 功 
能 性 扩展 技术 ， 使 协议 的 扩展 无 法 兼容 。 





HTTP 中 有 些 部 分 效率 不 高 。 甚 中 很 多 低 效 特性 会 随 着 高 时 延 、 低 吞吐 量 的 无 线 
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访问 技术 的 广泛 使 用 而 变 得 更 加 严重 。 


。 传输 依赖 性 
HTTP 是 围绕 TCP/IP 网 络 协议 栈 设计 的 。 尽 管 没 有 限制 说 不 能 使 用 替代 协议 栈 ， 
但 在 这 方面 所 做 的 工作 非常 少 。HTTP 要 为 替代 协议 栈 提 供 更 多 的 支持 ， 才 能 作 
为 一 个 更 广阔 的 报 文 发 送 平台 应 用 于 舱 入 式 和 无 线 应 用 程序 之 中 。 


10.2 HTTP-NG 的 活动 


1997 年 夏天 ， 万维网 联盟 启动 了 一 个 特殊 项 目 ， 调 查 并 提出 一 个 新 的 HTTP 版 本 ， 
以 修正 与 复杂 性 、 可 扩展 性 、 性 能 及 传输 依赖 性 有 关 的 一 些 问题 。 这 个 新 的 HTTP 
被 称 为 HTTP: 下 一 代 系 统 (HTTP-NG ) 。 





在 1998 年 12 月 举行 的 一 次 IETF 会 议 上 ， 提 出 了 一 组 HTTP-NG 建议 。 这 些 建议 勾 
勒 出 了 一 种 可 能 的 HTTP 主要 发 展 方向 。 这 项 技术 还 未 被 广泛 采用 (可 能 永远 也 不 
会 被 广泛 采用 了 )， 但 HTTP-NG 确实 在 扩展 HTTP 系统 方面 做 出 了 最 认真 的 努力 。 
下 面 我 们 来 仔细 看 看 HTTP-NG. 


10.3 ”模块 化 及 功能 增强 

可 以 用 三 个 英语 单词 来 描述 HTTP-NG 的 主题 “模块 化 及 功能 增强 ”(modularize 
and enhance)。 如 图 10-1 所 示 ，HTTP-NG 工作 组 建议 将 协议 模块 化 为 三 层 ， 而 不 
是 将 连接 管理 、 报 文 处 理 、 服 务 器 处 理 逻 辑 和 协议 方法 全 都 混在 一 起 。 














° 第 一 层 ， 报 文 传输 层 (message transport layer)， 这 一 层 不 考虑 报 文 的 功能 ， 而 
是 致力 于 端点 间 报 文 的 不 透明 传输 。 报 文 传输 层 支 持 各 种 子 协 议 栈 (比如 无 线 环 
况 下 的 协议 栈 )， 主 要 负责 处 理 高 效 报 文 传输 及 处 理 方 面 的 问题 。HTTP-NG 项 目 
组 为 本 层 提出 了 一 个 名 为 WebMUX 的 协议 。 

° 第 二 层 ， 远 程 调 用 层 (remote invocation layer), ， 定 义 了 请 求 / 响应 的 功能 ， 客 户 
端 可 以 通过 这 些 功 能 调用 对 服务 器 资源 的 操作 。 本 层 独立 于 报 文 的 传输 以 及 操作 
的 精确 语义 。 它 只 是 提供 了 一 种 标准 的 方法 来 调用 服务 器 上 所 有 的 操作 。 本 层 试 
图 提供 一 种 像 CORBA、DCOM 和 Jave RMI 那样 的 面向 对 象 的 可 扩展 框架 ， 而 
不 是 HTTP/1.1 中 那 种 静态 的 、 服 务 器 端 定 义 的 方法 。HTTP-NG 项 目 组 建议 本 
层 使 用 二 进 制 连接 协议 (Binary Wire Protocol) 。 

° 第 三 层 ，Web 应 用 层 (Web application layer)， 提 供 了 大 部 分 的 内 容 管理 逻辑 。 
所 有 的 HTTP/1.1 方法 (GET, POST. PUT 等 )， 以 及 HTTP/1.1 首部 参数 都 是 
在 这 里 定义 的 。 本 层 还 支持 其 他 构建 在 远程 调用 基础 上 的 服务 ， 比 如 WebDAV, 
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第 三 层 Web 应 用 功能 
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图 10-1. HTTP-NG 将 功能 都 分 散 到 各 层 之 中 实现 


只 要 将 HITP 组 件 模块 化 了 ， 就 可 以 对 其 进行 改进 ， 以 提供 更 好 的 性 能 和 更 丰富 的 
特性 。 


10.4 分布 式 对 象 


HTTP-NG 的 很 多 基本 原理 和 功能 目标 都 是 从 CORBA 和 DCOM 这 样 的 结构 化 、 面 
向 对 象 的 分 布 式 对 象 系统 中 借鉴 来 的 。 分 布 式 对 象 系统 对 可 扩展 性 和 功能 特性 都 很 
有 帮助 。 


从 1996 年 开始 ， 一 个 研究 团体 就 在 和 争论 是 否 要 将 HTTP 与 更 复杂 的 分 布 式 对 象 系 
统 聚 合 在 一 起 。 在 Web 中 使 用 分 布 式 对 象 模 型 有 很 多 好 处 ， 更 多 与 此 相关 的 信息 请 
查阅 Xerox PARC 早期 名 为 “Migrating the Web Toward Distributed Objects" (“Web 
向 分 布 式 对 象 的 迁移 ”) 的 文章 (ftp://ftp.parc.xerox.com/pub/ilu/misc/Webilu.html ) 。 








将 Web 和 分 布 式 对 象 统一 起 来 的 雄心 使 得 HTTP-NG 的 应 用 受到 了 革 些 社团 的 抵 
制 。 过 去 的 一 些 分 布 式 对 象 系统 受到 了 重量 级 实现 方案 和 形式 上 复杂 性 的 影响 。 
HTTP-NG 项 目 组 也 尝试 去 解决 需求 中 提 到 的 一 些 问题 。 


10.5 第 一 层 一 一 报 文 传输 


我 们 从 最 底层 开始 ， 近 距离 地 看 看 HTTP-NG 这 三 层 的 功能 。 报 文 传输 层 关心 的 是 
报 文 的 有 效 传 输 ， 不 考虑 报 文 的 含义 和 目的 。 报 文 传输 层 为 报 文 传输 提供 了 一 个 
API， 无 论 底层 实际 采用 的 是 什么 网 络 协议 栈 都 可 以 使 用 。 





本 层 关注 的 是 提高 报 文 传输 的 性 能 ， 其 中 包括 : 


° 对 报 文 进 行 管道 化 和 批量 化 传输 ， 以 降低 往返 时 延 ， 

° 重用 连接 ， 以 降低 时 延 ， 提 高 传输 带宽 ， 

。 在 同一 条 连接 上 并 行 地 复 用 多 个 报 文 流 , 在 防止 报 文 流 饿 死 的 同时 优化 共享 连接 ， 
° 对 报 文 进行 有 效 的 分 段 ， 使 报 文 边界 的 确定 更 加 容易 。 
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HTTP-NG 工作 组 将 大 部 分 精力 都 放 在 了 为 第 一 层 的 报 文 传输 开发 WebMUX 协议 
上 。WebMUX 是 个 高 性 能 的 报 文 协议 ， 可 以 对 报 文 进行 分 段 ， 并 在 一 条 复 用 的 
TCP 连接 上 交错 地 传输 报 文 。 本 章 会 对 WebMUX 进行 较为 详细 的 介绍 。 


10.6 第 二 层 一 一 远程 调用 

HTTP-NG 结构 的 中 间 层 提供 了 对 远程 方法 调用 的 支持 。 本 层 提供 了 通用 的 请 求 / 响 
应 框架 ， 客 户 端 可 通过 此 框架 调用 对 服务 器 资源 的 操作 。 本 层 并 不 关心 特定 操作 的 
实现 及 语义 (缓存 、 安 全 性 以 及 方法 逻辑 等 ) ， 它 只 关心 允许 客户 端 远 程 调用 服务 
器 操作 的 接口 。 


现在 已 经 有 很 多 远程 方法 调用 标准 了 ( 举 儿 个 例子 来 说 ， 比 如 CORBA、DOM 和 
Java RMI)， 本 层 并 不 打算 支持 这 些 系统 中 所 有 好 的 特性 。 但 它 有 一 个 明确 的 目标 ， 
就 是 要 对 HTTP/1.1 所 提供 的 HTTP RMI 支持 进行 扩展 。 特 别 是 ， 要 以 可 扩展 的 面 
向 对 象 方式 提供 更 通用 的 远程 过 程 调用 支持 。 


HTTP-NG 小 组 建议 本 层 采 用 二 进 制 连接 协议 。 这 个 协议 支持 一 种 高 性 能 的 可 扩展 
技术 ,通过 这 种 技术 可 以 调用 服务 器 上 经 过 良好 描述 的 操作 ， 并 将 结果 返回 。 本 章 
稍 后 将 对 二 进 制 连接 协议 进行 较为 详细 的 讨论 。 


10.7 第 三 层 一 一 Web 应 用 


Web 应 用 层 是 执行 语义 和 应 用 程序 特定 逻辑 的 地 方 。HTTP-NG 工作 组 避 开 了 扩展 
HTTP 应 用 特性 的 诱惑 ， 专 注 于 正规 的 基础 建设 工作 。 


Web 应 用 层 描 述 了 一 个 用 于 提供 应 用 程序 特定 服务 的 系统 。 这 些 服务 并 不 单一 ， 不 
同 的 应 用 程序 可 能 使 用 不 同 的 API。 比 如 ，HTTP/1.1 的 Web 应 用 构成 的 应 用 程序 
与 WebDAYV 可 能 会 共享 一 些 公 用 的 部 分 ， 但 又 会 有 所 不 同 。HTTP-NG 结构 允许 多 
个 应 用 共存 于 本 层 ， 共 享 底层 特性 ， 它 还 提供 了 一 种 添加 新 应 用 程序 的 机 制 。 


Web 应 用 层 的 基本 思想 是 提供 与 HTTP/1.1 等 价 的 功能 和 一 些 扩展 接口 ， 同 时 将 其 
映射 到 一 个 可 扩展 的 分 布 式 对 象 框架 中 去 。 更 多 与 Web 应 用 层 接口 有 关 的 内 容 可 以 
参见 http://www.w3.org/Protocols/HTTP-NG/1998/08/draft-larner-nginterfaces-00.txt , 

















10.8 WebMUX 


HTTP-NG 工作 组 花费 了 很 多 精力 ， 为 报 文 传输 开发 了 WebMUX 标准 。WebMUX 
是 一 个 复杂 的 高 性 能 报 文系 统 ， 通 过 这 个 系统 ， 可 以 在 一 个 复 用 的 TCP 连接 上 并 行 
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地 传输 报 文 。 可 以 对 以 不 同 速度 产生 和 消耗 的 独立 报 文 流 进行 高 效 的 分 组 ， 并 将 其 
复 用 到 一 条 或 少数 几 条 TCP 连接 上 去 (参见 图 10-2)。 
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图 10-2. WebMUX 可 以 在 一 条 连接 上 复 用 多 条 报 文 
WebMUX 协议 的 关键 目标 包括 如 下 几 条 。 


设计 简单 。 
高 性 能 。 
复 用 一 一 可 以 在 一 条 连接 上 动态 、 高 效 地 交错 传递 多 个 〈 使 用 任意 高 层 协议 的 ) 





数据 流 ， 不 用 因为 等 待 那些 速度 很 慢 的 生产 者 程序 而 延迟 数据 的 传输 。 

基于 信用 的 流量 控制 一 一 数据 是 以 不 同 的 速率 产生 和 消耗 的 ， 发 送 者 和 接收 者 的 
内 存 和 可 用 的 CPU 资源 都 有 所 不 同 。WebMUX 使 用 的 是 “基于 信用 的 ”流量 控 
制 方案 ， 接 收 者 可 以 预先 声明 期 望 的 数据 接收 速度 ， 防 止 出 现 资源 缺乏 产生 的 














死 锁 。 
保持 对 齐 一 一 保持 复 用 流 中 数据 的 对 齐 , 这 样 才 能 有 效 地 发 送 并 处 理 二 进 制 数据 。 
丰富 的 功能 一 一 接口 足够 丰富 ， 能 支持 套 接 字 API, 





更 多 有 关 WebMUX 协议 的 内 容 请 参阅 http://www.w3.org/Protocols/IMUX/WD-mux- 
980722.html。 


10.9 二进制 连接 协议 


HTTP-NG 小 组 建议 使 用 二 进 制 连接 协议 来 提高 下 一 代 HTTP 协议 支持 远程 操作 的 


26 
HE Je 


HTTP-NG 定义 了 一 些 “ 对 象 类 型 ”， 并 为 每 种 对 象 类 型 分 配 了 一 组 方法 。 为 每 
种 对 象 类 型 分 配 一 个 URI， 以 便 将 对 它 的 描述 和 它 的 方法 宣传 出 去 。 通 过 这 种 方 
式 ，HTTP-NG 提供 了 一 种 比 HTTP/1.1 的 扩展 性 更 强 ， 且 面向 对 象 的 执行 模型 ， 
HTTP/1.1 中 所 有 的 方法 都 是 在 服务 器 中 静态 定义 的 。 
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二 进 制 连接 协议 通过 一 条 有 状态 的 连接 承载 了 从 客户 端 发 往 服务 器 的 操作 调用 请 求 ， 
以 及 从 服务 器 发 往 客户 端的 操作 结果 应 答 。 有 状态 的 连接 可 以 提供 更 高 的 效率 。 


请 求 报 文中 包含 操作 、 目 标 对 象 和 可 选 的 数据 值 。 应 答 报 文 带 回 了 操作 的 最 终 状 态 、 
所 对 应 请 求 的 序列 号 (允许 以 任意 顺序 传递 并 行 的 请 求 和 响应 )， 以 及 可 选 的 返回 
值 。 除 了 请 求 和 应 答 报 文 之 外 ， 这 个 协议 还 定义 了 儿 种 内 部 控制 报 文 ， 用 来 提高 连 
接 的 效率 和 强壮 性 。 

















更 多 有 关 二 进 制 连接 协议 的 内 容 请 参阅 http://www.w3.org/Protocols/HTTP-NG/1998/08/ 
draft-Janssen-httpng-wire-00.txt 


10.10 ”当前 的 状态 


1998 年 底 ，HTTP-NG 小 组 认定 现在 将 HITP-NG 建议 引入 IETF 还 为 时 尚 早 。 
工业 界 和 各 社团 都 还 没有 完全 调整 到 HTTP/1.1 上 来 ， 如 果 没 有 明确 的 转换 计划 
就 进行 重大 的 HTTP-NG 重 构 计 划 ， 将 甚 重 构 为 分 布 式 对 象 模式 可 能 会 造成 严重 
的 破坏 。 


对 此 ， 人 们 提出 了 两 点 建议 。 


。 不 要 指望 能 在 一 步 之 内 实现 整个 HTTP-NG 重 构 计 划 ， 建 议 重 点 关注 WebMUX 
传输 技术 。 但 是 ， 在 编写 此 书 的 时 候 ， 人 们 还 没有 足够 的 兴趣 去 建立 一 个 
WebMUX 工作 组 。 

。 要 去 探讨 能 否 将 正式 的 协议 类 型 修改 得 足够 灵活 (可 能 是 通过 XML 实现 的 )， 
以 满足 Web 上 应 用 的 需要 。 对 于 可 扩展 的 分 布 式 对 象 系统 来 说 ,这 一 点 尤其 重要 。 
这 项 工作 仍 在 进行 之 中 。 



































编写 此 书 时 ， 还 没有 什么 主导 力量 在 驱动 HTTP-NG 的 应 用 。 但 随 着 HTTP 应 用 的 
不 断 增多 ， 随 着 它 越 来 越 多 地 作为 各 种 应 用 程序 的 平台 使 用 ， 以 及 无 线 因特网 技 
术 和 面向 消费 者 的 因特网 技术 的 不 断 应 用 ，HTTP-NG 中 提出 的 一 些 技术 可 能 会 在 
HTTP 的 青少年 时 期 逐渐 显现 出 其 重要 性 。 


10.11 更 多 信息 


更 多 有 关 HTTP-NG 的 信息 ， 请 参见 下 面 列 出 的 详细 规范 和 活动 报告 。 








° http://www.w3.org/Protocols/HTTP-NG/ 
HTTP-NG 工作 组 〈 建 议 )，W3C 联盟 Web 站 点 。 
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http://www.w3.org/Protocols/MUX/WD-mux-980722.html 
J. Gettys 和 H. Nielsen 编写 的 “The WebMUX Protocol” ( "WebMUX 协议 ”)。 


http://www.w3.org/Protocols/HTTP-NG/1998/08/draft-janssen-httpng-wire-00.txt 

B. Janssen 编写 的 “Binary Wire Protocol for HTTP-NG" ( “HTTP-NG 的 二 进 制 
连接 协议 ”)。 
http://www.w3.org/Protocols/HTTP-NG/1998/08/draft-larner-nginterfaces-00.txt 


D. Larner 编写 的 “HTTP-NG Web Interfaces" ( *HTTP-NG Web 接口 ”)。 


ftp://ftp.parc.xerox.com/pub/ilu/misc/Webilu.html 
D. Larner 编写 的 “Migrating the Web Toward Distributed Objects" ( “Web In] 
布 式 对 象 的 迁移 ”)。 





第 三 部 分 





识别 、 认 证 与 安全 


第 三 部 分 的 4 章 提 供 了 一 系列 的 技术 和 技巧 ， 可 用 来 跟踪 身份 、 进 行 安全 性 检查 ， 


控制 对 内 容 的 访问 。 


° 第 11 章 介绍 了 识别 用 户 的 技巧 ， 这 样 就 可 以 实现 用 户 个 性 化 的 内 容 了 。 
° 第 12 章 重 点 概述 了 用 户 身份 验证 的 基本 原理 。 这 一 章 还 探讨 了 HTTP 认证 与 数 


据 库 之 间 的 接口 机 制 。 





° 第 13 章 解释 了 摘要 验证 ， 这 是 一 种 复 


地 提高 安全 性 。 


杂 的 、 针 对 HTTP 的 增强 方式 ， 可 以 极 大 


° 第 14 章 详细 介绍 了 因特网 密码 学 、 数 字 证 书 和 安全 套 接 字 层 
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客户 端 识别 与 c00kie 机 制 
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Web 服务 器 可 能 会 同时 与 数 千 个 不 同 的 客户 端 进行 对 话 。 这 些 服务 器 通常 要 记录 下 
它们 在 与 谁 交谈 ， 而 不 会 认为 所 有 的 请 求 都 来 自 匿 名 的 客户 端 。 本 章 讨论 了 一 些 服 
务 器 可 以 用 来 识别 其 交谈 对 象 的 技巧 。 


11.1 个 性 化 接触 


HTTP 最 初 是 一 个 匿名 、 无 状态 的 请 求 / 响应 协议 。 服 务 器 处 理 来 自 客户 端的 请 求 ， 
然后 向 客户 端 回 送 一 条 响应 。Web 服务 器 几乎 没有 什么 信息 可 以 用 来 判定 是 哪个 用 
户 发 送 的 请 求 ， 也 无 法 记录 来 访 用 户 的 请 求 序列 。 
现代 的 Web 站 点 希望 能 够 提供 个 性 化 的 接触 。 它 们 希望 对 连接 另 一 端的 用 户 有 更 多 
的 了 解 ， 并 且 能 在 用 户 浏 览 页 面 时 对 其 进行 跟踪 。Amazon.com 这 样 流行 的 在 线 商 
店 网 站 可 以 通过 以 下 几 种 方式 实现 站 点 的 个 性 化 。 















































。 个 性 化 的 问候 
专门 为 用 户 生成 的 欢迎 词 和 页 面 内 容 ， 使 购物 体验 更 加 个 性 化 。 


° 有 的 放 舌 的 推荐 
通过 了 解 客户 的 兴趣 ， 商 店 可 以 推荐 一 些 它们 认为 客户 会 感 兴趣 的 商品 。 商 店 还 
可 以 在 临近 客户 生日 或 其 他 一 些 重要 日 子 的 时 候 提 供 生日 特定 的 商品 。 


。 管理 信息 的 存档 
在 线 购物 的 用 户 不 喜欢 一 次 又 一 次 地 填写 繁琐 的 地 址 和 信用 卡 信息 。 有 些 站 点 会 
将 这 些 管理 细节 存储 在 一 个 数据 库 中 。 只 要 他 们 识别 出 用 户 ， 就 可 以 使 用 存档 的 
管理 信息 ， 使 得 购物 体验 更 加 便捷 。 


。 记录 会 话 
HTTP 事务 是 无 状态 的 。 每 条 请 求 /响应 都 是 独立 进行 的 。 很 多 Web 站 点 希望 能 
在 用 户 与 站 点 交互 的 过 程 中 (比如 ， 使 用 在 线 购物 车 的 时 候 ) 构建 增 量 状态 。 要 
实现 这 一 功能 ，Web 站 点 就 需要 有 一 种 方式 来 区 分 来 自 不 同 用 户 的 HTTP 事务 。 


本 章 对 HTTP 识别 用 户 的 几 种 技巧 进行 了 总 结 。HTTP 并 不 是 天 生 就 具有 丰富 的 识 
别 特性 的 。 早 期 的 Web 站 点 设计 者 们 (他 们 都 是 些 注 重 实际 的 人 ) 都 有 自己 的 用 户 
识别 技术 。 每 种 技术 都 有 其 优势 和 劣势 。 本 章 我 们 将 讨论 下 列 用 户 识 别 机 制 。 


° 承载 用 户 身份 信息 的 HTTP 首部 。 

° 客户 端 IP 地 址 跟踪 ， 通 过 用 户 的 IP 地 址 对 其 进行 识别 。 
。 用 户 登 录 ， 用 认证 方式 来 识别 用 户 。 

° 胖 URL, 一 种 在 URL 中 上 艇 入 识别 信息 的 技术 。 
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。 cookie， 一 种 功能 强大 且 高 效 的 持久 身份 识别 技术 。 


11.2 HTTP 首 部 


表 11-1 给 出 了 七 种 最 常见 的 用 来 承载 用 户 相 关 信 息 的 HTTP 请 求 首部 。 这 里 我 们 先 
讨论 前 三 个 ; 后 面 四 个 首部 用 于 更 高 级 的 识别 技术 ， 我 们 稍 后 讨论 。 


表 11-1 承载 用 户 相关 信息 的 HTTP 首 部 



































首部 名 称 首部 类 型 Jo xk 
From 请 求 用 户 的 E-mail 地 址 
User-Agent 请 求 用 户 的 浏览 器 软件 
Referer 请 求 用 户 是 从 这 个 页 面 上 依照 链接 跳 转 过 来 的 
Authorization 请 求 用 户 名 和 密码 ( 稍 后 讨论 ) 
Client-IP 扩展 〈 请 求 ) 客户 端的 IP 地址 ( 稍 后 讨论 ) 
X-Forwarded-For 扩展 〈 请 求 ) 客户 端的 IP 地 址 ( 稍 后 讨论 ) 
Cookie 扩展 (请 求 ) 服务 器 产生 的 ID 标签 ( 稍 后 讨论 ) 











From 首部 包含 了 用 户 的 E-mail 地 址 。 每 个 用 户 都 有 不 同 的 E-mail 地 址 ， 所 以 在 理 
想 情 况 下 ， 可 以 将 这 个 地 址 作为 可 行 的 源 端 来 识别 用 户 。 但 由 于 担心 那些 不 讲 道德 
的 服务 器 会 搜集 这 些 E-mail 地 址 ， 用 于 垃圾 邮件 的 散发 ， 所 以 很 少 有 浏览 器 会 发 送 
From 首部 。 实 际 上 ，From 首部 是 由 自动 化 的 机 器 人 或 蜂 蛛 发 送 的 ， 这 样 在 出 现 问 
题 时 ， 网 管 还 有 个 地 方 可 以 发 送 愤怒 的 投诉 邮件 。 

User-Agent 首部 可 以 将 用 户 所 用 浏览 器 的 相关 信息 告知 服务 器 ， 包 括 程序 的 名 称 
和 版 本 ， 通 常 还 包含 操作 系统 的 相关 信息 。 要 实现 定制 内 容 与 特定 的 浏览 器 及 其 属 
性 间 的 良好 互 操作 时 ， 这 个 首部 是 非常 有 用 的 ， 但 它 并 没有 为 识别 特定 的 用 户 提 供 
太 多 有 意义 的 帮助 。 下 面 是 两 种 User-Agent 首部 ， 一 种 是 网 景 的 Navigator 发 送 
的 ， 另 一 种 是 微软 的 Internet Explorer 发 送 的 : 











e Navigator 6.2 


User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:0.9.4) 
Gecko/20011128 
Netscape6/6.2.1 


° Internet Explorer 6.01 


User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0) 


Referer 首部 提供 了 用 户 来 源 页 面 的 URL。Referer 首部 自身 并 不 能 完全 标识 用 
户 ,但 它 确实 说 明了 用 户 之 前 访问 过 哪个 页 面 。 通 过 它 可 以 更 好 地 理解 用 户 的 浏览 
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行为 ， 以 及 用 户 的 兴趣 所 在 。 比 如 ， 如 果 你 是 从 一 个 篮球 网 站 抵达 某 个 Web 服务 器 
的 ， 这 个 服务 器 可 能 会 推断 你 是 个 篮球 迷 。 


From, User-Agent Í Referer 首部 都 不 足以 实现 可 靠 的 识别 。 后 面 的 小 节 对 识 
别 特定 用 户 的 策略 进行 了 更 为 详细 的 讨论 。 


11.3 客户 端 I|P 地 址 


早期 的 Web 先锋 曾 尝试 着 将 客户 端 卫 地 址 作为 一 种 标识 形式 使 用 。 如 果 每 个 用 
户 都 有 不 同 的 耳 地 址 ， 卫 地 址 〈 如 果 会 发 生变 化 的 话 ) 也 很 少 会 发 生变 化 ， 而 且 
Web 服务 器 可 以 判断 出 每 条 请 求 的 客户 端 IP 地 址 的 话 ， 这 种 方案 是 可 行 的 。 通 常 
在 HTTP 首部 并 不 提供 客户 端的 IP 地址，' 但 Web 服务 器 可 以 找到 承载 HTTP 请 求 
的 TCP 连接 另 一 端的 IP 地 址 。 








比如 ， 在 Unix 系统 中 ， 国 数 调用 getpeername 就 可 以 返回 发 送 端 机 器 的 客户 端正 地 址 : 


status = getpeername (ccp_connection_socket,...); 


但 是 ， 使 用 客户 端 IP 地 址 来 识别 用 户 存在 着 很 多 缺点 ， 限 制 了 将 其 作为 用 户 识别 技 
术 的 效能 。 


。 客户 端 卫 地 址 描述 的 是 所 用 的 机 器 ， 而 不 是 用 户 。 如 果 多 个 用 户 共 享 同一 台 计 

算 机 ， 就 无 法 对 其 进行 区 分 了 。 

很 多 因特网 服务 提供 商都 会 在 用 户 登 录 时 为 其 动态 分 配 IP 地址。 用 户 每 次 登录 

时 ， 都 会 得 到 一 个 不 同 的 地 址 ， 因 此 Web 服务 器 不 能 假设 I 了 PP 地址 可 以 在 各 登录 

会 话 之 间 标 识 用 户 。 

° 为 了 提高 安全 性 ， 并 对 稀缺 的 地 址 资源 进行 管理 ， 很 多 用 户 都 是 通过 网 络 地 址 转 
换 (Network Address Translation, NAT) 防火 墙 来 浏览 网 络 内 容 的 。 这 些 NAT 
设备 隐藏 了 防火 墙 后 面 那些 实际 客户 端的 IP 地 址 ， 将 实际 的 客户 端 卫 地 址 转换 
成 了 一 个 共享 的 防火 墙 IP 地 址 (和 不 同 的 端口 号 )。 

° HTTP 代理 和 网 关 通 常会 打开 一 些 新 的 、 到 原始 服务 器 的 TCP 连接 。Web 服务 
器 看 到 的 将 是 代理 服务 器 的 IP 地址， 而 不 是 客户 端的 。 有 些 代理 为 了 绕 过 这 个 
问题 会 添加 特殊 的 client-IP 或 X-Forwarded-For 扩展 首部 来 保存 原始 的 IP 
地 址 (参见 图 11-1)。 但 并 不 是 所 有 的 代理 都 支持 这 种 行为 。 


有 些 Web 站 点 仍然 使 用 客户 端 IP 地址 在 会 话 之 间 跟 踪 用 户 的 行为 ， 但 这 种 站 点 并 
不 多 。 无 法 用 IP 地 址 确定 目标 的 地 方太 多 了 。 























注 1: 稍 后 我 们 会 看 到 ， 有 些 代 理 确 实 会 添加 一 个 client -IP 首部 ， 但 这 并 不 是 HTTP 标准 的 一 部 分 。 
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服务 器 
Client-ip: 209.172.34.56 
X-Forwarded-For:209.172.34.56 


"jm 
209.172.34.56 











图 11-1 代理 可 以 添加 扩展 首部 ， 来 传递 原始 客户 端的 1P 地 址 


少数 站 点 其 至 将 客户 端 IP 地 址 作为 一 种 安全 特性 使 用 ， 它 们 只 向 来 自 特定 IP 地 址 
的 用 户 提供 文档 。 在 内 部 网 络 中 可 能 可 以 这 么 做 ， 但 在 因特网 上 就 不 行 了 ， 主 要 是 
因为 因特网 上 IP 地 址 大 容易 被 欺骗 (伪造) 了 。 路 径 上 如 果 有 拦截 代理 也 会 破坏 此 
方案 。 第 14 章 讨 论 了 一 些 强大 得 多 的 特权 文档 访问 控制 策略 。 


114 用 户 登 录 


Web 服务 器 无 需 被 动 地 根据 用 户 的 卫 地 址 来 猜测 他 的 身份 ， 它 可 以 要 求 用 户 通过 
用 户 名 和 密码 进行 认证 (登录 ) 来 显 式 地 询问 用 户 是 谁 。 


为 了 使 Web 站 点 的 登录 更 加 简便 ，HTTP 中 包含 了 一 种 内 建 机 制 ， 可 以 用 www- 
Authenticate 首部 和 Authorization 首部 向 Web 站 点 传送 用 户 的 相关 信息 。 一 
旦 登录 ， 浏 览 器 就 可 以 不 断 地 在 每 条 发 往 这 个 站 点 的 请 求 中 发 送 这 个 登录 信息 了 ， 
这 样 ， 就 总 是 有 登录 信息 可 用 了 。 我 们 将 在 第 12 章 对 这 种 HTTP 认证 机 制 进行 更 加 
详细 的 讨论 ， 现 在 我 们 先 来 简单 地 看 一 看 。 

如 果 服 务 器 希望 在 为 用 户 提 供 对 站 点 的 访问 之 前 ， 先 行 登录 ， 可 以 向 浏览 器 回 送 一 
条 HTTP 响应 代码 401 Login Required。 然 后 ,浏览 器 会 显示 一 个 登录 对 话 框 ， 并 
用 Authorization 首 部 在 下 一 条 对 服务 器 的 请 求 中 提供 这 些 信息 。 图 11-2 对 此 
进行 了 说 明 。 

此 图 中 发 生 的 情况 如 下 所 述 。 

















。 在 图 11-2a 中 ， 浏 览 器 对 站 点 www.joes-hardware.com 发 起 了 一 条 请 求 。 

° 站 点 并 不 知道 这 个 用 户 的 身份 ， 因 此 在 图 11-2b 中 ， 服 务 器 会 返回 401 Login 
Required HTTP 响应 码 ， 并 添加 www-Authentication 首部， 要 求 用 户 登 录 。 
这 样 浏 览 器 就 会 弹出 一 个 登录 对 话 框 。 











注 2: 为 了 不 让 用 户 每 发 送 一 条 请 求 都 要 登录 一 次 ， 大 多 数 浏 览 器 都 会 记 住 某 站 点 的 登录 信息 ， 并 将 登录 信 
息 放 在 发 送 给 该 站 点 的 每 条 请 求 中 。 
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(à) GET /index.html HTTP/1.0 
Host: www.joes-hardware.com 


[] m - E 


客户 端 服务 器 














(b) HTTP/1.0 401 Login Required 
WWW-authenticate: Basic realm-"Plumbing and Fixtures" 








Dm ww I 


(c) GET /index.html HTTP/1.0 
Host: www.joes-hardware.com 
Authorization: Basic am910jRmdWA4- 


J Te mas Ed 


客户 端 服务 器 





服务 器 
























(d) HTTP/1.0 200 OK 
Content-length: 


Content-type: e 


“a m B 











客户 端 








11-2 用 HTTP 认证 首部 注册 用 户 名 


只 要 用 户 输入 了 用 户 名 和 密码 (对 其 身份 进行 完整 性 检查 )， 浏 览 器 就 会 重复 原 

来 的 请 求 。 这 次 它 会 添加 一 个 Authorization 首部 ， 说 明 用 户 名 和 密码 。 对 用 

户 名 和 密码 进行 加 密 ， 防 止 那 些 有 意 无 意 的 网 络 观察 者 看 到 。” 

现在 ， 服 务 器 已 经 知道 用 户 的 身份 了 。 

今后 的 请 求 要 使 用 用 户 名 和 密码 时 ， 浏 览 器 会 自动 将 存储 下 来 的 值 发 送出 去 ， 甚 

至 在 站 点 没有 要 求 发 送 的 时 候 也 经 常会 向 其 发 送 。 浏 览 器 在 每 次 请 求 中 都 向 服务 
器 发 送 Authorization 首部 作为 一 种 身份 的 标识 ， 这 样 ， 只 要 登录 一 次 ， 就 可 

以 在 整个 会 话 期 间 维持 用 户 的 身份 了 。 


























注 3: 在 第 14 章 我 们 会 看 到 ， 任 何 有 这 种 想法 的 人 ， 不 用 费 多 大 事 就 可 以 轻易 地 将 HTTP 基本 的 认证 用 户 





名 和 密码 破解 出 来 。 稍 后 将 讨论 一 些 更 安全 的 技术 。 
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但 是 ， 登 录 多 个 Web 站 点 是 很 繁琐 的 。EFred 从 一 个 站 点 浏览 到 另 一 个 站 点 的 时 候 ， 
需要 在 每 个 站 点 上 登录 。 更 糟 的 是 ， 可 怜 的 Fred 很 可 能 要 为 不 同 的 站 点 记 住 不 同 的 
用 户 名 和 密码 。 他 访问 很 多 站 点 的 时 候 ， 他 最 喜欢 的 用 户 名 fred 可 能 已 经 被 其 他 人 
用 过 了 ,而 且 有 些 站 点 为 用 户 名 和 密码 的 长 度 和 组 成 设置 了 不 同 的 规则 。Fred 很 快 
就 会 放弃 上 网 ， 回 去 看 奥 普 拉 (Oprah) 的 脱口 秀 了 。 下 一 市 我 们 来 讨论 这 个 问题 
的 解决 方案 


11.5 BEURL 


有 些 Web 站 点 会 为 每 个 用 户 生成 特定 版 本 的 URL 来 追踪 用 户 的 身份 。 通 常 ， 会 对 
真正 的 URL 进行 扩展 ， 在 URL 路 人 径 开 始 或 结束 的 地 方 添加 一 些 状 态 信 息 。 用 户 闵 
览 站 点 时 ，Web 服务 器 会 动态 生成 一 些 超 链 ， 继 续 维护 URL 中 的 状态 信息 。 


= 


改动 后 包含 了 用 户 状态 信息 的 URL 被 称 为 胖 URL (fat URL)。 下 面 是 Amazon.com 
电子 商务 网 站 使 用 的 一 些 胖 URL 实例 。 每 个 URL 后 面 都 附加 了 一 个 用 户 特有 的 标 
识 码 (在 这 个 例子 中 就 是 002-1145265-8016838) ， 这 个 标识 码 有 助 于 在 用 户 浏览 次 
店内 容 时 对 其 进行 跟踪 。 


<a hrefz"/exec/obidos/tg/browse/-/229220/ref-gr gifts/002-1145265- 
8016838"-Al11 Gifts</a><br> 

«a hrefz"/exec/obidos/wishlist/ref-gr pli /002-1145265-8016838"-Wish 
List«/a»«br» 


«a hrefz"http://sl.amazon.com/exec/varzea/tg/armed-forces/-//ref-gr 

af /002-1145265-8016838"5.Salute Our Troopsc/a»«br» 

«a hrefz"/exec/obidos/tg/browse/-/749188/ref-gr p4 /002-1145265-8016838" 
»Free Shipping«/a»«br» 

«a hrefz"/exec/obidos/tg/browse/-/468532/ref-gr returns/002-1145265-8016838" 
»Easy Returns«/a» 


可 以 通过 胖 URL 将 Web 服务 器 上 若干 个 独立 的 HTTP 事务 捆绑 成 一 个 “会 话 ” 或 
“访问 ”。 用 户 首次 访问 这 个 Web 站 点 时 ， 会 生成 一 个 唯一 的 ID ， 用 服务 器 可 以 识 
别 的 方式 将 这 个 ID 添加 到 URL 中 去 ， 然 后 服务 器 就 会 将 客户 端 重 新 导向 这 个 胖 
URL。 不 论 什么 时 候 ， 只 要 服务 器 收 到 了 对 胖 URL 的 请 求 ， 就 可 以 去 查找 与 那个 用 
P ID 相关 的 所 有 增 量 状态 (购物 车 、 简 介 等 )， 然 后 重 写 所 有 的 输出 超 链 ， 使 其 成 
为 胖 URL， 以 维护 用 户 的 ID。 


可 以 在 用 户 浏览 站 点 时 ， 用 胖 URL 对 其 进行 识别 。 但 这 种 技术 存在 几 个 很 严重 的 问题 。 


° 了 丑陋 的 URL 
浏览 器 中 显示 的 胖 URL 会 给 新 用 户 带 来 困扰 。 
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。 无 法 共享 URL 
WE URL 中 包含 了 与 特定 用 户 和 会 话 有 关 的 状态 信息 。 如 果 将 这 个 URL 发 送 给 其 
他 人 ， 可 能 就 在 无 意 中 将 你 积累 的 个 人 信息 都 共享 出 去 了 。 











。 破坏 缓存 

为 每 个 URL 生成 用 户 特 有 的 版 本 就 意味 着 不 再 有 可 供 公共 访问 的 URL 需要 缓存 了 。 
额外 的 服务 器 负荷 

服务 器 需要 重 写 HTML 页 面 使 URL 变 胖 。 


° Higo 
用 户 跳 转 到 其 他 站 点 或 者 请 求 一 个 特定 的 URL 时 ， 就 很 容易 在 无 意 中 “ 逃 离 ” 
JE URL 会 话 。 只 有 当 用 户 严格 地 追随 预先 修改 过 的 链接 时 ， 胖 URL 才能 工作 。 
如 果 用 户 逃 离 此 链接 ， 就 会 丢失 他 的 进展 (可 能 是 一 个 已 经 装 满 了 东西 的 购物 
车 ) 信息 ， 得 重新 开始 。 


。 在 会 话 间 是 非 持久 的 
除非 用 户 收藏 了 特定 的 胖 URL， 否 则 用 户 退 出 登录 时 ， 所 有 的 信息 都 会 丢失 。 








11.6 cookie 


cookie 是 当前 识别 用 户 ， 实 现 持久 会 话 的 最 好 方式 。 前 面 各 种 技术 中 存在 的 很 多 问 
题 对 它们 都 没什么 影响 ， 但 是 通常 会 将 它们 与 那些 技术 共用 ， 以 实现 额外 的 价值 。 
cookie 最 初 是 由 网 景 公司 开 发 的 ， 但 现在 所 有 主要 的 浏览 器 都 支持 它 。 


cookie 非常 重要 ， 而 且 它 们 定义 了 一 些 新 的 HTTP 首部 ， 所 以 我 们 要 比 前 面 那 些 技 
术 更 详细 地 介绍 它们 。cookie 的 存在 也 影响 了 缓存 ， 大 多 数 缓存 和 浏览 器 都 不 允许 
对 任何 cookie 的 内 容 进 行 缓存 。 后 面 的 小 节 对 此 进行 了 更 为 详细 的 介绍 。 


11.6.1 cookie 的 类 型 
可 以 笼统 地 将 cookie 分 为 两 类 : 会 话 cookie 和 持久 cookie。 会话 cookie 是 一 种 
临时 cookie， 它 记录 了 用 户 访问 站 点 时 的 设置 和 偏好 。 用 户 退 出 浏览 器 时 ， 会 话 
cookie 就 被 删除 了 。 持 和 久 cookie 的 生存 时 间 更 长 一 些 ， 它 们 存储 在 硬盘 上 ， 浏 览 器 
退出 ， 计 算 机 重启 时 它们 仍然 存在 。 通 常会 用 持久 cookie 维护 某 个 用 户 会 周期 性 访 
问 的 站 点 的 配置 文件 或 登录 名 。 


会 话 cookie 和 持久 cookie 之 间 唯 一 的 区 别 就 是 它们 的 过 期 时 间 。 稍 后 我 们 会 看 到 ， 
如 果 设 置 了 Discard 参数 ， 或 者 没有 设置 Expires 或 Max-Age 参数 来 说 明 扩展 的 
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过 期 时 间 ， 这 个 cookie 就 是 一 个 会 话 cookie。 


11.6.2 cookie 是 如 何 工 作 的 
cookie 就 像 服 务 器 给 用 户 贴 的 “ 嗨 ， 我 叫 ” 的 贴纸 一 样 。 用 户 访问 一 个 Web 站 点 
时 ， 这 个 Web 站 点 就 可 以 读 取 那个 服务 器 贴 在 用 户 身 上 的 所 有 贴纸 。 








用 户 首次 访问 Web 站 点 时 ，Web 服务 器 对 用 户 一 无 所 知 (参见 图 11-3a) Web 服 
务 器 希望 这 个 用 户 会 再 次 回来 ， 所 以 想 给 这 个 用 户 “ 拍 上 ”一 个 独 有 的 cookie， 这 
样 以 后 它 就 可 以 识别 出 这 个 用 户 了 。cookie 中 包含 了 一 个 由 名 字 = 值 (name=value) 
这 样 的 信息 构成 的 任意 列表 ， 并 通过 Set-Cookie 或 set-cookie2 HTTP 响应 (1^ 
展 ) 首部 将 其 贴 到 用 户 身上 去 。 








(a) GET /index.html HTTP/1.0 


Host: www.joes-hardware.com 


L] E css mum) E 


客户 端 服务 器 














HTTP/1.0 200 OK 
(b) Set-cookie: id-"34294"; domain-"joes-hardware.com" 
Content-type: text/html 
Content-length: 1903 
Set-Cookie |... 


LIGA 5 m 
— 


客户 端 











服务 器 





(c) GET /index.html HTTP/1.0 
Host: www.joes-hardware.com 1 
Cookie: 102"34294" cookig 


id="34294 
m 1B 
CES 


客户 端 服务 器 














11-3 给 用 户 贴 一 个 cookie 


cookie 中 可 以 包含 任意 信息 ， 但 它们 通常 都 只 包含 一 个 服务 器 为 了 进行 跟踪 而 产 
生 的 独特 的 识别 码 。 比 如 ， 在 图 11-3b 中 ， 服 务 器 会 将 一 个 表示 id-"34294" 的 
cookie 贴 到 用 户 上 去 。 服 务 器 可 以 用 这 个 数字 来 查找 服务 器 为 其 访问 者 积累 的 数据 
库 信 息 (购物 历史 、 地 址 信息 等 )。 
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但 是 ，cookie 并 不 仅 限 于 ID 号 。 很 多 Web 服务 器 都 会 将 信息 直接 保存 在 cookie 中 。 
比如 : 


Cookie: name="Brian Totty"; phone="555-1212" 


浏览 器 会 记 住 从 服务 器 返回 的 Set-Cookie 或 set-cookie2 首部 中 的 cookie 内 
容 ， 并 将 cookie 集 存储 在 浏览 器 的 cookie 数据 库 中 (把 它 当 作 一 个 贴 有 不 同 国家 贴 
纸 的 旅行 箱 ) 。 将 来 用 户 返 回 同一 站 点 时 (参见 图 11-3c) ， 浏 览 器 会 挑 中 那个 服务 
器 贴 到 用 户 上 的 那些 cookie， 并 在 一 个 cookie 请 求 首 部 中 将 其 传 回去 。 


11.6.3 cookiet: 客户 端的 状态 

cookie 的 基本 思想 就 是 让 浏览 器 积累 一 组 服务 器 特有 的 信息 ， 每 次 访问 服务 器 时 都 
将 这 些 信息 提供 给 它 。 因 为 浏览 器 要 负责 存储 cookie 信息 ， 所 以 此 系统 被 称 为 客户 
MR A (client-side state), X^ cookie 规范 的 正式 名 称 为 HTTP 状态 管理 机 制 


(HTTP state management mechanism ) 。 











1. 网 景 的 Navigator 的 cookie 
不 同 的 浏览 器 会 以 不 同 的 方式 来 存储 cookie。 网 景 的 Navigator 会 将 cookie 存储 在 
一 个 名 为 cookies.txt 的 文本 文件 中 。 例 如 : 


# Netscape HTTP Cookie File 
# http://www.netscape.com/newsref/std/cookie spec.html 
# This is a generated file! Do not edit. 








# 

# domain allh path secure expires name value 

www. fedex. com FALSE / FALSE 1136109676 cc /us/ 
.bankofamericaonline.com TRUE / FALSE 1009789256 state CA 
.cnn.com TRUE / FALSE 1035069235 SelEdition www 
secure.eepulse.net FALSE /eePulse FALSE 1007162968 cid $FESFF$002 
www.reformamt.org TRUE /forum FALSE 1033761379 LastVisit 1003520952 
www.reformamt.org TRUE /forum FALSE 1033761379 UserName Guest 





文本 文件 中 的 每 一 行 都 代表 一 个 cookie, # 7 个 用 tab 键 分 隔 的 字段 。 
° domain (Pk) 
cookie 的 域 。 


。 allh 
是 域 中 所 有 的 主机 都 获取 cookie， 还 是 只 有 指定 了 名 字 的 主机 获取 。 


° path (路 径 ) 
域 中 与 cookie 相关 的 路 径 前 绥 。 








° Secure (安全 ) 
是 否 只 有 在 使 用 SSL 连接 时 才 发 送 这 个 cookie。 


。 expiration (过 期 ) 
从 格林 尼 治 标准 时 间 1970 年 1 月 1 日 00:00:00 开始 的 cookie 过 期 秒 数 。 


° name (名 字 ) 
cookie 变量 的 名 字 。 
。 value ( 值 ) 
cookie 变量 的 值 。 


2. 微软 Internet Explorer 的 cookie 

微软 的 Internet Explorer 将 cookie 存储 在 高 速 缓存 目录 下 独立 的 文本 文件 中 。 可 以 
通过 浏览 这 个 目录 来 查看 cookie， 如 图 11-4 所 示 。Internet Explorer 中 cookie 文件 
格式 是 特有 的 ， 但 很 多 字段 都 很 容易 理解 。cookie 一 个 接 一 个 地 存储 在 文件 中 ， 每 
个 cookie 都 由 多 行 构成 。 














È bri@amazon[2] txt - WwordPar lol xi 


File Edt View Insert Format Help 





A 5E —"session-id" 





k 在 一 个 Y session-i 
bis m Lir EE [4—002-9351993-5692007" 


1536 径 =“amazon.com” 
2147975168 域 / 路 径 


3003222112 其 他 属性 的 特有 格式 


开 MSIE cookie 






































session-id-time 
1007884800 
amazon.com/ 
1536 

2147975168 
29458567 
3003692112 
29457253 

* 





ubid-main 
430-7425470-2274602 























ine l 每 个 cookie 文 件 中 都 有 某 个 特 
- - E ns 定 站 点 的 cookie， 这 些 cookie 
MSIE 将 cookie 与 其 他 缓存 对 象 存储 在 相 3005882112 一 个 接 一 个 地 存储 在 文本 行 中 


29457253 
* 





同 的 位 置 
x-main 
hQFiIxHUFj8mCscTü Yb5Z7xsVsOFQjBf 
amazon. com/ 
1536 
2916341376 
31961269 
3006352112 
29457253 
* 





For Help, press F1 








11-4 Internet Explorer 的 cookie 存储 在 缓存 目录 下 独立 的 文本 文件 中 
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文件 中 每 个 cookie 的 第 一 行 中 都 包含 了 cookie 的 变量 名 。 下 一 行 是 变量 的 值 。 第 三 
行 是 域 和 路 径 。 剩 下 的 行 就 是 一 些 特 有 的 数据 ， 可 能 包含 日 期 和 一 些 标 记 。 


11.6.4 不 同 站 点 使 用 不 同 的 cookie 

浏览 器 内 部 的 cookie 猴 中 可 以 有 成 百 上 千 个 cookie, 但 浏览 器 不 会 将 每 个 cookie 
都 发 送 给 所 有 的 站 点 。 实 际 上 ， 它 们 通常 只 问 每 个 站 点 发 送 2 ~ 3 个 cookie。 原 因 
如 下 。 


° 对 所 有 这 些 cookie 字 节 进行 传输 会 严重 降低 性 能 。 浏 览 器 实际 传输 的 cookie F 
节 数 要 比 实际 的 内 容 字 节 数 多 ! 

* cookie 中 包含 的 是 服务 器 特有 的 名 值 对 ， 所 以 对 大 部 分 站 点 来 说 ， 大 多 数 cookie 
都 只 是 无 法 识别 的 无 用 数据 。 

。 将 所 有 的 cookie 发 送 给 所 有 站 点 会 引发 潜在 的 隐私 问题 ， 那 些 你 并 不 信任 的 站 
点 也 会 获得 你 只 想 发 给 其 他 站 点 的 信息 。 


总 之 ， 浏 览 器 只 向 服务 器 发 送 服务 器 产生 的 那些 cookie。joes-hardware.com 产生 的 


cookie 会 被 发 送 给 joes-hardware.com， 不 会 发 送 给 bobs-books.com 或 marys-movies. 





com, 








很 多 Web 站 点 都 会 与 第 三 方 厂商 达成 协议 ， 由 其 来 管理 广告 。 这 些 广 告 被 做 得 像 
Web 站 点 的 一 个 组 成 部 分 ， 而 且 它 们 确实 发 送 了 持久 cookie。 用 户 访问 另 一 个 由 同 
一 广告 公司 提供 服务 的 站 点 时 ，( 由 于 域 是 匹配 的 ) 浏览 器 就 会 再 次 回 送 早先 设置 的 
持久 cookie。 营 销 公 司 可 以 将 此 技术 与 Referer 首部 结合 ， 有 暗地里 构建 一 个 用 户 档 
案 和 浏览 习惯 的 详尽 数据 集 。 现 代 的 阐 览 器 都 允许 用 户 对 隐私 特性 进行 设置 ， 以 限 
制 第 三 方 cookie 的 使 用 。 











1. cookie 的 域 属性 

产生 cookie 的 服务 器 可 以 向 set-cookie 响应 首部 添加 一 个 Domain 属性 来 控制 
哪些 站 点 可 以 看 到 那个 cookie。 比 如 ， 下 面 的 HTTP 响应 首部 就 是 在 告诉 浏览 器 将 
cookie user="mary17" 发 送 给 域 " .airtravelbargains.com" 中 的 所 有 站 点 : 


Set-cookie: user-"maryl7"; domain-"airtravelbargains.com" 


如 果 用 户 访问 的 是 www.airtravelbargains.com, specials.airtravelbargains.com 或 任意 


以 .airtravelbargains.com 结尾 的 站 点 ， 下 列 cookie 首部 都 会 被 发 布 出 去 : 


Cookie: user-"maryl7" 
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2. cookie 路 径 属 性 
cookie 规范 甚至 允许 用 户 将 cookie 与 部 分 Web 站 点 关联 起 来 。 可 以 通过 Path 属性 
来 实现 这 一 功能 ， 在 这 个 属性 列 出 的 URL 路 径 前 缀 下 所 有 cookie 都 是 有 效 的 。 


例如 ， 某 个 Web 服务 器 可 能 是 由 两 个 组 织 共 享 的， 每 个 组 织 都 有 独立 的 cookie, 
站 点 www.airtravelbargains.com 可 能 会 将 部 分 Web 站 点 用 于 汽车 租赁 一 一 比如 ， 
http:Wwww.airtravelbargains.comy/autos/ 一 一 用 一 个 独立 的 cookie 来 记录 用 户 喜欢 的 
汽车 尺寸 。 可 能 会 生成 一 个 如 下 所 示 的 特殊 汽车 租赁 cookie: 




















Set-cookie: pref=compact; domain="airtravelbargains.com"; path=/autos/ 
如 果 用 户 访问 http://www.airtravelbargains.com/specials.html， 就 只 会 获得 这 个 cookie: 
Cookie: user="mary17" 


但 如 果 访 问 http:/www.airtravelbargains.com/autos/cheapo/index.html， 就 会 获得 这 
两 个 cookie: 


Cookie: user="mary17" 
Cookie: pref=compact 


因此 ，cookie 就 是 由 服务 器 贴 到 客户 端 上 ， 由 客户 端 维护 的 状态 片段 ， 只 会 回 送 给 
那些 合适 的 站 点 。 下 面 我 们 来 更 仔细 地 看 看 cookie 的 技术 和 标准 。 


11.6.5 cookie 成 分 


现在 使 用 的 cookie 规范 有 两 个 不 同 的 版 本 : cookies 版 本 0 (有 了 时 被 称 为 Netscape 
cookies) 和 cookies 版 本 1 (RFC 2965), cookies 版 本 1 是 对 cookies 版 本 0 的 扩 
展 ， 应 用 不 如 后 者 广泛 。 


cookie 规范 版 本 0 和 版 本 1 都 不 是 作为 HTTP/1.1 规范 的 一 部 分 提供 的 。 表 11-2 对 
两 个 主要 的 附属 文档 进行 了 总 结 ， 这 两 个 文档 对 cookie 的 使 用 进行 了 很 好 的 描述 。 


表 11-2 cookie 规范 








标 题 描 述 位 置 
持久 客户 端 状态 : 最 初 的 Netscape cookie 标准 http://home.netscape.com/newsref/std/ 
HTTP cookies cookie_spec.html 


RFC 2965: HTTP 2000 年 10 月 的 cookie 标准 ， 废 弃 http://www .ietf.org/rfc/rfc2965.txt 
状态 管理 机 制 T RFC 2109 
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11.6.6 ”cookies 版 本 0 (Netscape) 

最 初 的 cookie 规范 是 由 网 景 公 司 定义 的 。 这 些 “ 版 本 0” 的 cookie 定义 了 set- 
Cookie WM Erb. cookie 请 求 首部 以 及 用 于 控制 cookie 的 字段 。 版 本 0 的 cookie 
看 起 来 如 下 所 示 : 





Set-Cookie: name-value [; expires-date] [; path-path] [; domain-domain] 
[; secure] 


Cookie: namel-valuel [; name2-value2] 


1. 版 本 0 的 Set-cookie 首 部 
Set-Cookie 首部 有 一 个 强制 性 的 cookie 名 和 cookie 值 。 后 面 跟着 可 选 的 cookie 
属性 ， 中 间 由 分 号 分 隔 。 表 11-3 描述 了 Set-Cookie 字段 。 

































































表 11-3 版 本 0 (网 景 ) 的 set-cookie 属 性 








Set-Cookie 属 性 描述 及 实例 
NAME=VALUE 强制 的 。NAME 和 VALUE 都 是 字符 序列 ， 除 非 包 含 在 双 引 号 内 ， 否 则 不 包括 分 











号 、 喜 号 、 等 号 和 空格 。Web 服务 器 可 以 创建 任意 的 NAME-VALUE 关联 ， 在 
后 继 对 站 点 的 访问 中 会 将 其 送 回 给 Web 服务 器 : 


Set-Cookie: customer=Mary 











Expires 可 选 的 。 这 个 属性 会 指定 一 个 日 期 字符 串 ， 用 来 定义 cookie 的 实际 生存 期 。 一 
旦 到 了 过 期 日 期 ， 就 不 再 存储 或 发 布 这 个 cookie 了 。 日 期 的 格式 为 : 
Weekday, DD-Mon-YY HH:MM:SS GMT 
唯一 合法 的 时 区 为 GMT， 各 日 期 元 素 之 间 的 分 隔 符 一 定 要 是 长 划 线 。 如 果 没 
有 指定 Expires, cookie 就 会 在 用 户 会 话 结束 时 过 期 : 
Set-Cookie: foo=bar; expires=Wednesday, 09-Nov-99 23:12:40 
GMT 


Domain 可 选 的。 浏览 器 只 向 指定 域 中 的 服务 器 主机 名 发 送 cookie。 这 样 服务 器 就 将 
cookie 限制 在 了 特定 的 域 中 。acme.com 域 就 与 anvil.acme.com 和 shipping. 
crate.acme.com 相 匹 配 ， 但 与 www.cnn.com 就 不 匹配 了 。 

只 有 指定 域 中 的 主机 才能 为 一 个 域 设置 cookie， 这 些 域 中 至 少 要 有 两 个 或 三 个 
句号 ， 以 防止 出 现 .com、.edu 和 va.us 等 形式 的 域 。 这 里 列 出 了 一 组 固定 的 特 
定 高 层 域 ， 落 在 这 个 范围 中 的 域 只 需要 两 个 句号 。 所 有 其 他 域 都 至 少 需 要 三 个 
句号 。 特 定 的 高 层 域 包括 : .com、.edu、.net、 .org、.gov、.mil、 .int, .biz, . 
info, .name, .museum, .coop, .aero 和 .pro。 

如 果 没 有 指定 域 ， 就 默认 为 产生 Set-Cookie 响应 的 服务 器 的 主机 名 : 


Set-Cookie: SHIPPING=FEDEX; domain="joes-hardware.com" 











































































































Set-Cookie 属 性 描述 及 实例 
path 可 选 的 。 通 过 这 个 属性 可 以 为 服务 器 上 特定 的 文档 分 配 cookie, #HJ Path 属性 





是 一 个 URL 路径 前 级 ， 就 可 以 附加 一 个 cookie。 路 径 /foo 与 /foobar 和 /foo/ 
bar.html 相 匹 配 。 路 径 “/” 与 域名 中 所 有 内 容 都 匹配 。 

如 果 没 有 指定 路 径 ， 就 将 其 设置 为 产生 Set-Cookie 响应 的 URL 的 路 径 ; 
Set-Cookie: lastorder=00183; path=/orders 











Secure 可 选 的 。 如 果 包 含 了 这 一 属性 ， 就 只 有 在 HTTP 使 用 SSL 安全 连接 时 才 会 发 送 


cookie: 





Set-Cookie: private id=519; secure 


2. 版 本 0 的 cookie 首 部 
客户 端 发 送 请 求 时 ， 会 将 所 有 与 域 、 路 径 和 安全 过 滤器 相 匹 配 的 未 过 期 cookie 都 发 
送 给 这 个 站 点 。 所 有 cookie 都 被 组 合 到 一 个 cookie 首部 中 : 


Cookie: session-id=002-1145265-8016838; session-id-time=1007884800 


11.6.7 ” cookies 版 本 1 (RFC 2965) 


RFC 2965 (以 前 的 RFC 2109) 定义 了 一 个 cookie 的 扩展 版 本 。 这 个 版 本 1 标准 引 
入 了 Set-Cookie2 首部 和 cookie2 首部 ,但 它 也 能 与 版 本 0 系统 进行 互 操作 。 


RFC 2965 cookie 标准 比 原始 的 网 景 公司 的 标准 略微 复杂 一 些 ， 还 未 得 到 完全 的 支 
fi, RFC 2965 cookie 的 主要 改动 包括 下 列 内 容 。 


° 为 每 个 cookie 关联 上 解释 性 文本 ， 对 甚 目的 进行 解释 。 

。 允许 在 浏览 器 退出 时 ， 不 考虑 过 期 时 间 ， 将 cookie 强制 销毁 。 

。 用 相对 秒 数 ， 而 不 是 绝对 日 期 来 表示 cookie 的 Max-Age。 

。 通过 URL 端口 号 ， 而 不 仅仅 是 域 和 路 径 来 控制 cookie 的 能 力 。 
° 通过 Cookie 首部 回 送 域 、 端 口 和 路 径 过 滤器 (如果 有 的 话 )。 

。 为 实现 互 操作 性 使 用 的 版 本 号 。 

° 在 cookie 首部 从 名 字 中 区 分 出 附加 关键 字 的 s 前 级 。 





cookie 版 本 1 的 语法 如 下 所 示 : 
set-cookie i "Set-Cookie2:" cookies 
cookies E l#cookie 
cookie - NAME "=" VALUE *(";" get-cookie-av) 
NAME E attr 
VALUE zi value 
set-cookie-av = "Comment" "=" value 
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版 本 1 的 cookie Ji Eb Pod eZ E 


portlist 
portnum 


cookie 


cookie-value 
cookie-version 
NAME 

VALUE 

path 

domain 

port 

cookie2 








版 本 1 的 set-cookie2 首 部 





"CommentURL" "=" <"> http_URL <"> 
"Discard" 
"Domain" "=" value 
"Max-Age" "=" value 
"Path" "=" Value 
"Port" [ "z" <s portlist sts ] 
"Secure" 
"Version" "=" 1*DIGIT 
= l#portnum 
= 1*DIGIT 
= "Cookie:" cookie-version 1*((";" | ",") cookie- 
value) 
= NAME "=" VALUE [";" path] [";" domain] [";" port] 
= "SVersion" "=" value 
= attr 
= value 
= "SPath" "=" value 
= "SDomain" "=" value 
三 "SPOort" [ "z" "5s value <"s ] 
u "Cookie2:" cookie-version 
司 标准 的 可 用 属性 要 多 。 表 11-4 对 这 些 属性 做 了 快 


速 汇总 。 更 详细 的 解释 请 参见 RFC 2965, 


表 11-4 版 本 1 (RFC 2965) 的 Set-Cookie2 属 性 













































































Set-Cookie2 属 性 描述 及 实例 

NAME=VALUE 强制 的 。Web 服务 器 可 以 创建 任意 的 NAME=VALUE 关联 ， 可 以 在 后 继 对 站 点 
的 访问 中 将 其 发 回 给 Web 服务 器 。“$” 是 保留 字符 ， 所 以 名 字 一 定 不 能 以 它 
开头 

Version 强制 的 。 这 个 属性 的 值 是 一 个 整数 ， 对 应 于 cookie 规范 的 版 本 。RFC 2965 为 
版 本 1: 
Set-Cookie2: Part="Rocket Launcher 0001"; Version="1" 

Comment 可 选 。 这 个 属性 说 明了 服务 器 准备 如 何 使 用 这 个 cookie. 用 户 可 以 通过 检查 
此 策略 来 确定 是 否 允 许 使 用 带 有 这 个 cookie 的 会 话 。 这 个 值 必须 采用 UTF-8 
编码 

CommentURL 可 选 。 这 个 属性 提供 了 一 个 URL 指针 ， 指 向 详细 描述 了 cookie 目的 及 策略 的 
文档 。 用 户 可 以 通过 查看 此 策略 来 判定 是 否 允 许 使 用 带 有 这 个 cookie 的 会 话 

Discard 可 选 。 如 果 提 供 了 这 个 属性 ， 就 会 在 客户 端 程序 终止 时 ， 指 示 客 户 端 放 弃 这 
个 cookie 

Domain 可 选 。 浏 览 器 只 向 指定 域 中 的 服务 器 主机 名 发 送 cookie。 这 样 服务 器 就 可 
以 将 cookie 限制 在 特定 域 中 了 。acme.com 域 与 主机 名 anvilacme.com 和 











shipping.crate.acme.com 相 匹 配 ， 但 不 
基本 上 与 Netscape cookie 一 样 ， 








匹配 于 www.cnn.com。 域 名 


但 有 几 条 附加 的 规则 。 


匹配 的 规则 
细节 请 参见 RFC 2965 














Set-Cookie2 属 性 描述 及 实例 
Max-Age 可 选 。 这 个 属性 的 值 是 一 个 整数 ， 用 于 设置 以 秒 为 单位 的 cookie 生存 期 。 客 
























































户 端 应 该 根据 HTTP/1.1 的 使 用 期 计算 规则 来 计算 cookie 的 使 用 期 。cookie 
的 使 用 期 比 Max-Age 大 时 ， 客 户 端 就 应 该 将 这 个 cookie 丢弃 。 值 为 零 说 明 
应 该 立即 将 那个 cookie 丢弃 


Path 可 选 。 通 过 这 个 属性 可 以 为 服务 器 上 的 特定 文档 指定 cookie。 如 果 Path 属性 
是 一 个 URL 路 径 的 前 级 ， 就 可 以 附加 一 个 cookie。 路 径 /foo 匹配 于 /foobar 
和 /foo/bar.html1。 路 径 “/” 匹 配 于 域 中 所 有 内 容 。 如 果 没 有 指定 路 径 ， 就 将 
其 设置 为 生成 Set-Cookie 响应 的 URL 的 路 径 


port 可 选 。 这 个 属性 可 以 单独 作为 关键 字 使 用 ， 也 可 以 包含 一 个 由 有 逗号 分 隔 的 、 
可 以 应 用 cookie 的 端口 列表 。 如 果 有 端口 列表 ， 就 只 能 向 端口 与 列表 中 的 端 
口 相 匹配 的 服务 器 提供 cookie。 如 果 单 独 提 供 关 键 字 port 而 没有 值 ， 就 只 
能 向 当前 响应 服务 器 的 端口 号 提供 cookie: 
Set-Cookie2: foo="bar"; Version-"1"; 
Port-"80,81,8080" 
Set-Cookie2: foo-"bar"; Version-"1"; Port 


Secure 可 选 。 如 果 包 含 这 个 属性 ， 就 只 有 在 HTTP 使 用 SSL 安全 连接 时 才能 发 送 


cookie 





























































































































2. 版 本 1 的 Cookie 首 部 

版 本 1 的 cookie 会 带 回 与 传送 的 每 个 cookie 相关 的 附加 信息 ， 用 来 描述 每 个 cookie 
途径 的 过 滤器 。 每 个 匹配 的 cookie 都 必须 包含 来 自 相 应 set-cookie2 首部 的 所 有 
Domain, Port 或 Path 属性 。 

比如 ， 假 设 客户 端 以 前 曾 收 到 下 列 五 个 来 自 Web 站 点 www.joes-hardware.com 的 
Set-Cookie2 响应 : 


Set-Cookie2: ID-"29046"; Domain-".joes-hardware.com" 

Set-Cookie2: color-blue 

Set-Cookie2: support-pref-"L2"; Domain-"customer-care.joes-hardware. 
com" 

Set-Cookie2: Coupon-"hammer027"; Version-"1"; Path-"/tools" 


Set-Cookie2: Coupon-"handvac103"; Version-"1"; Path-"/tools/cordless" 


如 果 客 户 端 对 路 径 /tools/cordless/specials.html 又 发 起 了 一 次 请 求 ， 就 会 同时 发 送 这 
样 一 个 很 长 的 cookie 首部 : 


Cookie: $Version-"1"; 
ID="29046"; $Domain-".joes-hardware.com"; 
color="blue"; 
Coupon="hammer027"; $Path="/tools"; 
Coupon="handvac103"; $Path="/tools/cordless" 
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注意 ， 所 有 匹配 cookie 都 是 和 它们 的 set -cookie2 过 滤器 一 同 传输 的 ， 而 且 保 留 
关键 字 都 是 以 美元 符号 (s) 开头 的 。 

3. 版 本 1 的 cookie2 首 部 和 版 本 协商 

Cookie2 请 求 首部 负责 在 能 够 理解 不 同 cookie 规范 版 本 的 客户 端 和 服务 器 之 间 进 行 


互 操作 性 的 协商 。cookie2 首部 告知 服务 器 ， 用 户 Agent 代理 理解 新 形式 的 cookie, 
并 提供 了 所 支持 的 cookie 标准 版 本 (将 其 称 为 Cookie-Version 更 合适 一 些 ) : 








Cookie2: $Version-"1" 


如 果 服 务 器 理解 新 形式 的 cookie， 就 能 够 识别 出 cookie2 首部 ， 并 在 响应 首部 发 送 
Set-Cookie2 (而 不 是 set-cookie)。 如 果 客 户 端 从 同一 个 响应 中 既 获 得 了 Set- 
Cookie 首部 ， 又 获得 了 set -cookie2 首部 ， 就 会 忽略 老 的 Set-Cookie 首部 。 


如 果 客 户 端 既 支 持 版 本 0 又 支持 版 本 1 的 cookie， 但 从 服务 器 获得 的 是 版 本 0 的 
Set-Cookie 首部 ， 就 应 该 带 着 版 本 0 的 cookie 首部 发 送 cookie。 但 客户 端 还 应 
该 发 送 cookie2: sVersion=“1” 来 告知 服务 器 它 是 可 以 升级 的 。 




















11.6.8 cookie 与 会 话 跟 踪 

可 以 用 cookie 在 用 户 与 某 个 Web 站 点 进行 多 项 事务 处 理 时 对 用 户 进行 跟踪 。 电 子 
商务 Web 站 点 用 会 话 cookie 在 用 户 浏览 时 记录 下 用 户 的 购物 车 信息 。 我 们 以 流行 
的 购物 网 站 Amazon.com 为 例 。 在 浏览 器 中 输入 http://www.amazon.com 时 ， 就 启 
动 了 一 个 事务 链 ， 在 这 些 事务 中 Web 服务 器 会 通过 一 系列 的 重 定向 、UREL 重 写 以 
及 cookie 设置 来 附加 标识 信息 。 


图 11-5 显示 了 从 一 次 Amazon.com 访问 中 捕获 的 事务 序列 。 














。 图 11-5a 浏览 器 首次 请 求 Amazon.com 根 页 面 。 

。 图 11-50 一 一 服务 器 将 客户 端 重 定向 到 一 个 电子 商务 软件 的 URL 上 。 

。 图 11-5c 一 一 客户 端 对 重 定向 的 URL 发 起 一 个 请 求 。 

图 11-5d 一 一 服务 器 在 响应 上 贴 上 两 个 会 话 cookie， 并 将 用 户 重 定向 到 另 一 个 
URL， 这 样 客户 端 就 会 用 这 些 附加 的 cookie 再 次 发 出 请 求 。 这 个 新 的 URL 是 个 
RE URL， 也 就 是 说 有 些 状 态 峙 入 到 URL PAT. ZH imk cookie, H 
要 用 户 一 直 跟 随 着 Amazon.com 产生 的 胖 URL 链接 ， 不 离开 网 站 ,仍然 可 以 实 
现 一 些 基本 的 标识 功能 。 

。 图 11-5e 一 一 客户 端 请 求 新 的 URL， 但 现在 会 传送 两 个 附加 的 cookie。 
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。 图 11-5f 一 一 服务 器 重 定向 到 home.html 页 面 ， 并 附加 另外 两 个 cookie, 


。 图 11-5g 一 一 客户 端 获 取 home.html 页 面 并 将 所 有 四 个 cookie 都 发 送出 去 。 
图 11-5h 一 一 服务 器 回 送 内 容 








客 户 端 www.amazon.com 


GET / HTTP/1.0 
Host: www.amazon.com Ca á 


PN (b) HTTP/1.1 302 Found 
Location: http://www.amazon.com:80/exec/obidos/subst/home/redirect.html 




















GET /exec/obidos/subst/home/redirect.html HTTP/1.0 (C) ete eerte > 
Host: www.amazon.com 














HTTP/1.1 302 Found 

Date: Sun, 02 Dec 2001 03:20:47 GMT 

sqan rU IUE (d) Set-cookie: session-id-002-1145265-8016838; path-/; domain-.amazon.com; 
expires-Sunday, 09-Dec-2001 08:00:00 GMT 


Set-cookie: session-id-time-1007884800; Ju /; domain-.amazon.com; 
expires-Sunday, 09-Dec-2001 08:00:00 G 














GET /exec/obidos/subst/home/redirect.html/002-1145265-8016838 HTTP/1.0 
Host: www.amazon.com 


Cookie: session-id-002-1145265-8016838; session-id-time-1007884800 














HTTP/1.1 302 Found 
Date: Sun, 02 Dec 2001 03:45:40 GMT 
Set-cookie: ubid-main-430-8248051-6231206; path-/; domain.amazon.com; 
"Xe (f) ^ expires-Tuesday, 01-Jan-2036 08:00:01 GMT 
Location: http://www. amazon. com/exec/obidos/subst/home/home.htm1/002-1145265-8016838 
Set-cookie: x-main-"hQ...Bf; path-/; domain-.amazon.com; 
expires-Tuesday, 01- Jan- 2036 08:00:01 GMT 














GET /exec/obidos/subst/home/home.html/002-1145265-8016838 HTTP/1.0 

Host: www.amazon.com (d) eene » 

Cookie: session-id-002-1145265-8016838; session-id-time-1007884800; 9 
ubid-main=430-8248051-6231206; x-main-hQ...Bf 
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图 11-5. Amazon.com 网 站 用 会 话 cookie 来 跟踪 用 户 
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11.6.9 ”cookie 与 缓存 


缓存 那些 与 cookie 事务 有 关 的 文档 时 要 特别 小 心 。 你 不 会 希望 给 用 户 分 配 一 个 过 去 
某 些 用 户 用 过 的 cookie， 或 者 更 糟糕 的 是 ， 向 一 个 用 户 展 示 其 他 人 私有 文档 的 内 容 。 


cookie 和 缓存 的 规则 并 没有 很 好 地 建立 起 来 。 下 面 是 处 理 缓存 时 的 一 些 指导 性 规则 。 














如 果 无 法 缓存 文档 ， 要 将 其 标示 出 来 

文档 的 所 有 者 最 清楚 文档 是 否 是 不 可 缓存 的 。 如 果 文 档 不 可 缓存 ， 就 显 式 地 注 
明 一 一 具体 来 说 ， 如 果 除 了 Set-Cookie 首部 之 外 文档 是 可 缓存 的 ， 就 使 用 
Cache-Control:no-cache="Set-Cookie"。 男 一 种 更 通用 的 做 法 是 为 可 缓存 
文档 使 用 cache-control:public， 这 样 有 助 于 节省 Web 中 的 带宽 。 











缓存 Set-Cookie 首部 时 要 小 心 

如 果 响 应 中 有 Set-Cookie 首部 ， 就 可 以 对 主体 进行 缓存 (除非 被 告知 不 要 这 么 
f), 但 要 特别 注意 对 Set-Cookie 首部 的 缓存 。 如 果 疝 多 个 用 户 发 送 了 相同 的 
Set-Cookie 首部 ， 可 能 会 破坏 用 户 的 定位 。 

有 些 缓存 在 将 响应 缓存 起 来 之 前 会 删除 Set-Cookie 首部 ， 但 这 样 也 会 引发 一 
些 问 题 ， 因 为 在 没有 缓存 的 时 候 ， 通 篆 都 会 有 cookie 贴 在 客户 端 上 ， 但 由 缓存 
提供 服务 的 客户 端 就 不 会 有 cookie 了 。 强 制 缓存 与 原始 服务 器 重新 验证 每 条 请 
求 ， 并 将 返回 的 所 有 set-cookie 首部 都 合并 到 客户 端的 响应 中 去 ， 就 可 以 改 
善 这 种 状况 。 原 始 服务 器 可 以 通过 向 缓存 的 副本 中 添加 这 个 首部 来 要 求 进 行 这 种 
再 验证 : 


Cache-Control: must-revalidate, max-age=0 


即便 内 容 实 际 上 是 可 以 缓存 的 ， 比 较 保守 的 缓存 可 能 也 会 拒绝 缓存 所 有 包含 
Set-Cookie 首部 的 响应 。 有 些 缓存 允许 使 用 缓存 Set-Cookie 图 片 ， 但 不 缓存 
文本 的 模式 。 


小 心 处 理 带 有 Cookie 首部 的 请 求 

^ Cookie 首部 的 请 求 到 达 时 ， 就 在 提示 我 们 ， 得 到 的 结果 可 能 是 私有 的 。 一 
定 要 将 私有 内 容 标识 为 不 可 缓存 的 ， 但 有 些 服务 器 可 能 会 犯错 ， 设 有 将 此 内 容 标 
记 为 不 可 缓存 的 。 

有 些 响 应 文档 对 应 于 携带 cookie 首部 的 请 求 ， 保 守 的 缓存 可 能 会 选择 不 去 缓存 
这 些 响应 文档 。 同 样 ， 有 些 缓存 允许 使 用 缓存 cookie 图 片 ， 而 不 缓存 文本 的 模 
式 。 得 到 更 广泛 接受 的 策略 是 缓存 带 有 Cookie 首部 的 图 片 ， 将 过 期 时 间 设 置 为 
零 ， 强 制 每 次 都 进行 再 验证 。 
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11.6.10 “ cookie、 安全 性 和 隐私 

cookie 是 可 以 禁止 的 ， 而 且 可 以 通过 日 志 分 析 或 其 他 方式 来 实现 大 部 分 跟踪 记录 ， 
所 以 cookie 自身 并 不 是 很 大 的 安全 隐患 。 实 际 上 ， 可 以 通过 提供 一 个 标准 的 审查 方 
法 在 远程 数据 库 中 保存 个 人 信息 ， 并 将 匿名 cookie 作为 键 值 ， 来 降低 客户 端 到 服务 
器 的 敏感 数据 传送 频率 。 


但 是 ， 潜 在 的 滥用 情况 总 是 存在 的 ， 所 以 ， 在 处 理 隐 私 和 用 户 跟踪 信息 时 ， 最 好 还 
是 要 小 心 一 些 。 第 三 方 Web 站 点 使 用 持久 cookie 来 跟踪 用 户 就 是 一 种 最 大 的 滥用 。 
将 这 种 做 法 与 耳 地 址 和 Referez 首部 信息 结合 在 一 起 ， 这 些 营 销 公司 就 可 以 构建 
起 相当 精确 的 用 户 档 案 和 浏览 模式 信息 。 

尽管 有 这 么 多 负面 的 宣传 ， 人 们 通常 还 是 认为 ， 如 果 能 够 小 心地 确认 在 向 谁 提 供 私 
人 信息 ， 并 仔细 查阅 站 点 的 隐私 政策 ， 那 么 ，cookie 会 话 处 理 和 事务 处 理 所 带 来 的 
便利 性 要 比 大 部 分 风险 更 重要 。 

















1998 年 ， 计 算 机 事故 咨询 能 力 组 织 (Computer Incident Advisory Capability) (美国 
能 源 部 的 一 部 分 ) 编写 了 一 份 过 分 使 用 cookie 的 风险 评估 报告 。 下 面 是 那 份 报告 的 
摘要 。 


CIAC I-034: 因特网 cookie 
(http://www.ciac.org/ciac/bulletins/i-034.shtml) 

° 问题 
cookie 是 Web 服 务 器 用 来 识别 Web 用 户 的 小 块 数据 。 关 于 cookie 功 能 的 流行 
说 法 和 谣言 之 间 的 比例 已 经 达到 了 令 人 不 解 的 地 步 ， 使 用 户 恐 惧 ， 使 管理 
者 忧心 。 
° 脆弱 性 评估 
由 于 使 用 Web 浏 览 器 cookie 使 得 系统 被 破坏 或 窃听 ， 从 而 带 来 的 系统 脆弱 
性 本 质 上 并 不 存在 。cookie 只 能 告知 Web 服 务 器 你 以 前 是 否 到 过 某 个 网 
站 ， 并 在 下 次 访问 时 将 来 自 Web 服 务 器 的 一 些 短 小 信息 (比如 用 户 编码 ) 
回 送 给 它 。 大 部 分 cookie 只 会 持续 到 用 户 退 出 浏览 器 为 止 ， 然 后 就 会 被 破 
坏 挤 。 第 二 种 名 为 持久 cookie 的 cookie 有 一 个 过 期 日 期 ， 会 在 你 的 硬盘 上 和 存 
储 到 那个 日 期 为 止 。 无 论 用 户 何 时 返回 一 个 站 上 点， 部 可 以 通过 持久 cookie 
来 识别 其 身份 ， 以 便 跟 踪 用 户 的 浏览 习惯 。 你 来 自 何 处 ， 以 及 访问 过 哪些 
Web 页 面 等 信息 已 经 存储 在 Web 服 务 器 的 日 志文 件 中 了 ， 也 可 以 用 这 些 信 
息 来 跟踪 用 户 的 浏览 习惯 ， 只 是 使 用 cookie 更 简单 一 些 女 了。 
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11.7 更 多 信息 


里 还 有 几 份 有 用 的 资源 ， 介 绍 了 更 多 与 cookie 有 关 的 信息 。 


Cookies 
Simon St.Laurent #, McGraw-Hill 公司 出 版 。 


http://www .ietf.org/rfc/rfc2965.txt 
RFC 2965, “HTTP State Management Mechanism" (“HTTP 状态 管理 机 制 *) (JE 
弃 了 RFC 2109), 


http://www .ietf.org/rfc/rfc2964.txt 
RFC 2964, "Use of HTTP State Management" ("HTTP 状态 管理 的 用 途 ” ) 。 


SUA MD LEN DEMNM ne 
个 经 典 的 网 景 公 司 文档 “Persistent Client State: HTTP Cookies” (“ARIZ n 
Cb HTTP Cookies") 描述 了 现在 仍 在 广泛 使 用 的 HTTP cookie 的 最 初 形式 。 
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有 数 百 万 的 人 在 用 Web 进行 私人 事务 处 理 ， 访 问 私 有 的 数据 。 通 过 Web 可 以 很 方便 地 
访问 这 些 信息 ， 但 仅仅 是 方便 访问 还 是 不 够 的 。 我 们 要 保证 只 有 特定 的 人 能 看 到 我 们 
的 敏感 信息 并 且 能 够 执行 我 们 的 特权 事务 。 并 不 是 所 有 的 信息 都 能 够 公开 发 布 的 。 


未 授权 用 户 无 法 查看 我 们 的 在 线 旅 游 档案 ， 也 不 能 在 未 经 许可 的 情况 下 向 Web 站 点 
发 布 文档 ， 这 会 让 我 们 感觉 舒服 一 些 。 我 们 还 要 确保 ， 组 织 中 未 经 授权 或 不 怀 好 意 
的 成 员 无 法 获取 那些 最 敏感 的 公司 计划 文档 。 我 们 与 孩子 、 配 偶 以 及 暗恋 对 象 的 私 
人 Web 通信 都 是 在 带 有 些许 隐私 保护 的 情况 下 进行 的 ， 这 样 我 们 才能 放心 。 

服务 器 需要 通过 某 种 方式 来 了 解 用 户 身份 。 一 旦 服务 器 知道 了 用 户 身份 ， 就 可 以 判 
定 用 户 可 以 访问 的 事务 和 资源 了 。 认 证 就 意味 着 要 证 明 你 是 谁 。 通 常 是 通过 提供 
用 户 名 和 密码 来 进行 认证 的 。HTTP 为 认证 提供 了 一 种 原生 工具 。 尽 管 我 们 可 以 在 
HTTP 的 认证 形式 和 cookie 基础 之 上 “运行 自己 的 ”认证 工具 ， 但 在 很 多 情况 下 ， 
HTTP 的 原生 认证 功能 就 可 以 很 好 地 满足 要 求 。 

AER T HTTP 的 认证 机 制 ,深入 介绍 了 最 常见 的 HTTP 认证 形式 ， 基 本 认证 
(basic authentication)。 下 一 章 将 介绍 一 种 称 为 摘要 认证 (digest authentication) 的 
功能 更 强 的 认证 技术 。 


12.1 认证 


认证 就 是 要 给 出 一 些 身份 证 明 。 当 出 示 像 护照 或 和 驾照 那样 有 照片 的 身份 证 件 时 ， 就 
给 出 了 一 些 证 据 ， 说 明 你 就 是 你 所 声称 的 那个 人 。 在 自动 取款 机 上 输入 PIN 码 , 或 
在 计算 机 系统 的 对 话 框 中 输入 了 密码 时 ， 也 是 在 证 明 你 就 是 你 所 声称 的 那个 人 。 









































现在 ， 这 些 策 略 都 不 是 绝对 有 效 的 。 密 码 可 以 被 猜 出 来 或 被 人 偶然 听 到 ， 身 份 证 件 
可 能 被 偷 去 或 被 伪造 ， 但 每 种 证 据 都 有 助 于 构建 合理 的 信任 ， 说 明 你 就 是 你 所 声称 
的 那个 人 。 


12.1.1 HTTP 的 质询 /响应 认证 框架 
HTTP 提供 了 一 个 原生 的 质询 /响应 (challenge/response) 框架 ， 简化 了 对 用 户 的 认 
证 过 程 。HTTP 的 认证 模型 如 图 12-1 中 所 示 。 


Web 应 用 程序 收 到 一 条 HTTP 请 求 报 文 时 ， 服 务 器 没有 按照 请 求 执行 动作 ， 而 是 以 
一 个 “认证 质询 ”进行 响应 ， 要 求 用 户 提供 一 些 保密 信息 来 说 明 他 是 谁 ， 从 而 对 其 
进行 质询 。 

用 户 再 次 发 起 请 求 时 ， 要 附 上 保密 证 书 (用 户 名 和 密码 )。 如 果 证 书 不 匹配 ， 服 务 器 
可 以 再 次 质询 客户 端 ， 或 产生 一 条 错误 信息 。 如 果 证 书 匹 配 ， 就 可 以 正常 完成 请 求 了 。 








294 | 第 12 章 



























































WES P p BEP... B 请 把 内 部 销售 预测 文档 发 给 我 。 
dorum 服务 器 
质询 Q 尔 请 求 的 是 保密 的 财务 文档 。 
Ll- — Herio SB 请 告知 你 的 用 户 名 和 密码 。 
| 服务 器 
(请 求 用 户 输 入 密码 ) 
Wr p m 请 把 内 部 的 销售 预算 文档 发 给 我 。 
一 "ES 这 是 我 的 用 户 名 和 密码 ， eere 
服务 器 
成 功 s 
TED pU) B um. 及 aR 这 是 文档 
服务 器 














图 12-1 简化 的 质询 / 响应 认证 框架 


12.1.2 ”认证 协议 与 首部 

HTTP 通过 一 组 可 定制 的 控制 首部 ， 为 不 同 的 认证 协议 提供 了 一 个 可 扩展 框架 。 表 
12-1 列 出 的 首部 格式 和 内 容 会 随 认 证 协议 的 不 同 而 发 生变 化 。 认 证 协议 也 是 在 
HTTP 认证 首部 中 指定 的 。 

HTTP 定义 了 两 个 官方 的 认证 协议 : 基本 认证 和 摘要 认证 。 今 后 人 们 可 以 随意 设计 
一 些 使 用 HTTP 质询 /响应 框架 的 新 协议 。 本 章 的 其 余部 分 将 解释 基本 认证 机 制 。 
摘要 认证 的 细节 请 参见 第 13 章 。 


表 12-1 认证 的 4 个 步骤 








步骤 首 部 描 述 方法 /状态 

请 求 第 一 条 请 求 没 有 认证 信息 GET 

质询 www-Authenticate 服务 器 用 401 状态 拒绝 了 请 求 ， 说 明 需 要 用 401 Unauthorized 
户 提供 用 户 名 和 密码 。 


E 





服务 器 上 可 能 会 分 为 不 同 的 区 域 ， 每 个 
域 都 有 自己 的 密码 ， 所 以 服务 器 会 在 www- 
Authenticate 首部 对 保护 区 域 进行 描述 。 
同样 ， 认 证 算法 也 是 在 www-Authenticate 
首部 中 指定 的 
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步骤 É BH JH B 方法 /状态 
授权 Authorization 客户 端 重 新 发 出 请 求 ， 但 这 一 次 会 附加 一 个 GET 
Authorization 首部 ， 用 来 说 明 认 证 算法 、 
用 户 名 和 密码 





成 功  Authentication-Info 如果 授 权证 书 是 正确 的 ， 服务器 就 会 将 200 OK 
文档 返回 。 有 些 授权 算法 会 在 可 选 的 
Authentication-Info 首部 返回 一 些 与 授 


会 话 相 关 的 附加 信息 



































为 了 具体 地 说 明 这 个 问题 ,我们 来 看 看 图 12-2, 


















































客户 端 服务 器 
GET /family/jeff.jpg HTTP/1.0 | (a) irrt keenean eneee eA > 
ELLITUEM TES] 
"m O —) Á?  É—w—. (X 4 | a... HTTP/1.0 401 Authorization Required 
- 3m. (b) WWW-Authenticate: Basic Team 'Family" 
m [from 中 
funr C wm 
r | | en | 
x GET /family/jeff. HTTP/1 
< horata :de YnpYil4tdGoodHk6T3ch i E S ss s > 
(d) HTTP/1.0 200 OK 
Content-type: image/jpe; 
imape data ee? jess 
12-2 基本 认证 实例 
服务 器 对 用 户 进行 质询 时 ， 会 返回 一 条 401 Unauthorized 响应 ， 并 在 wWwW-Authenticate 


首部 说 明 如 何以 及 在 哪里 进行 认证 (参见 图 12-2b ) 。 


当 客户 端 授 权 服 务 器 继续 处 理 时 ， 会 重新 发 送 请 求 ， 但 会 在 Authorization 首部 
附 上 加 密 的 密码 和 其 他 一 些 认证 参数 (参见 图 12-2c)。 


授权 请 求 成 功 完成 时 ， 服务 器 会 返回 一 个 正常 的 状态 码 (比如 ，200 OK) ; 对 高 级 
认证 算法 来 说 ， 可 能 还 会 在 authentication-Info 首部 附加 一 些 额外 的 信息 UE 
见 图 12-2d ) 。 











12.1.3 ”安全 域 
在 对 基本 认证 的 细节 进行 讨论 之 前 ， 需 要 解释 一 下 HTTP 是 怎样 允许 服务 器 为 








不 同 的 资源 使 用 不 同 的 访问 权限 的 。 你 可 能 已 经 注意 到 了 ， 图 12-2b 的 www- 
Authenticate 质询 中 包含 了 一 个 realm 指令 。Web 服务 器 会 将 受 保护 的 文档 组 织 
成 一 个 安全 域 (security realm) 。 每 个 安全 域 都 可 以 有 不 同 的 授权 用 户 集 。 


比如 ， 假 设 Web 服务 器 建立 了 两 个 安全 域 : 一 个 用 于 公司 的 财务 信息 ， 另 一 个 用 
于 个 人 家 庭 文档 〈 参 见 图 12-3)。 不 同 的 用 户 对 各 个 安全 域 的 访问 权限 是 不 同 的 。 
公司 的 CEO 应 该 能 够 访问 销售 额 预测 资料 ， 但 不 应 该 允许 他 访问 员工 和 其 家 人 度 
假 的 照片 ! 
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图 12-3 Web 服务 器 上 的 安全 域 
下 面 是 一 个 假想 的 基本 认证 质询 ， 它 指定 了 一 个 域 : 


HTTP/1.0 401 Unauthorized 
WWW-Authenticate: Basic realm="Corporate Financials" 


域 应 该 有 一 个 描述 性 的 字符 名 ， 比 如 Corporate Financials (公司 财务 资料 ) ， 以 帮助 
用 户 了 解 应 该 使 用 哪个 用 户 名 和 密码 。 在 安全 域 的 名 称 中 列 出 服务 器 主机 名 也 是 很 


有 帮助 的 一 一 比如 ，executive-committee@bigcompany.com。 


12.2 ”基本 认证 


基本 认证 是 最 流行 的 HTTP 认证 协议 。 几 乎 每 个 主要 的 客户 端 和 服务 器 都 实现 了 
基本 认证 机 制 。 基 本 认证 最 初 是 在 HTTP/1.0 规范 中 提出 的 ， 但 此 后 被 移 到 了 RFC 
2617 中 ， 它 详细 介绍 了 HTTP 的 认证 机 制 。 


在 基本 认证 中 ，Web 服务 器 可 以 拒绝 一 个 事务 ， 质 询 客户 端 ， 请 用 户 提供 有 效 的 用 
户 名 和 密码 。 服 务 器 会 返回 401 状态 码 ， 而 不 是 200 状态 码 来 初始 化 认证 质询 ， 并 
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用 www-Authenticate 响应 首部 指定 要 访问 的 安 人 全域。 浏览 器 收 到 质询 时 ， 会 打开 
一 个 对 话 框 ， 请 求 用 户 输 入 这 个 域 的 用 户 名 和 密码 。 然 后 将 用 户 名 和 密码 稍 加 扰 码 ， 
再 用 Authorization 请 求 首部 回 送 给 服务 器 。 





12.2.1 基本 认证 实例 
图 12-2 是 一 个 详细 的 基本 认证 实例 。 





° 在 图 12-2a 中 ， 用 户 请 求 了 私人 家 庭 相片 /family/jeff.jpg。 

。 在 图 12-2b 中 ， 服 务 器 回 送 一 条 401 Authorization Required， 对 私人 家 庭 相片 
进行 密码 质询 ， 同 时 回 送 的 还 有 wwW-Authenticate 首部 。 这 个 首部 请 求 对 
Family 域 进行 基本 认证 。 

° 在 图 12-2c 中 ， 浏 览 器 收 到 了 401 质询 ， 弹 出 对 话 框 ， 询 问 Family 域 的 用 
户 名 和 密码 。 用 户 输入 用 户 名 和 密码 时 ， 浏 览 器 会 用 一 个 冒号 将 其 连接 起 
来 ， 编 码 成 “经 过 扰 码 的 ”Base-64 表示 形式 (下 节 介 绍 )， 然 后 将 其 放 在 
Authorization 首 部 中 回 送 。 

° 在 图 12-2d 中 ， 服 务 器 对 用 户 名 和 密码 进行 解码 ， 验 证 它们 的 正确 性 ， 然 后 用 一 
条 HTTP 200 OK 报 文 返 回 所 请 求 的 报 文 。 











K 12-2 总 结 了 HTTP 基本 认证 的 WWW-Authenticate 和 Authorization 首部 。 


表 12-2 基本 认证 首部 











质询 /响应 首部 语法 及 描述 
质询 (服务 器 发 往 ” 网 站 的 不 同 部 分 可 能 有 不 同 的 密码 。 域 就 是 一 个 引用 字符 串 ， 用 来 命名 所 请 求 的 
客户 端 ) 文档 集 ， 这 样 用 户 就 知道 该 使 用 哪个 密码 了 : 








WWW-Authenticate: Basic realm=quoted-realm 
响应 〈 客 户 端 发 往 用 冒号 (: ) 将 用 户 名 和 密码 连接 起 来 ， 然 后 转换 成 Base-64 编码 ， 这 样 在 用 户 
服务 器 ) 名 和 密码 中 包含 国际 字符 会 稍微 容易 一 些 ， 也 能 尽量 避免 通过 观察 网 络 流量 并 只 
进行 一 些 粗略 的 检查 就 可 以 获取 用 户 名 和 密码 情况 的 发 生 : 


Authorization: Basic base64-username-and-password 


















































注意 ， 基 本 认证 协议 并 没有 使 用 表 12-1 所 示 的 Authentication-Info 首部 。 


12.2.2 Base-64 用 户 名 /密码 编码 

HTTP 基本 认证 将 (由 冒号 分 隔 的 ) 用 户 名 和 密码 打包 在 一 起 ， 并 用 Base-64 编码 
方式 对 其 进行 编码 。 如 果 不 知 道 Base-64 编码 是 什么 意思 ， 也 不 用 担心 。 你 并 不 需 
要 对 它 有 太 多 的 了 解 ， 如 果 对 此 感 兴 趣 ， 可 以 在 附录 EE 中 读 到 所 有 与 之 有 关 的 内 
容 。 简 单 来 说 ，Base-64 编码 会 将 一 个 8 位 字 节 序列 划分 为 一 些 6 位 的 块 。 用 每 个 6 
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位 的 块 在 一 个 特殊 的 由 64 个 字符 组 成 的 字母 表 中 选择 一 个 字符 ， 这 个 字母 表 中 包含 
了 大 部 分 字母 和 数字 。 


图 12-4 显示 了 使 用 Base-64 编码 的 基本 认证 实例 。 在 这 个 例子 中 ， 用 户 名 为 brian- 
totty， 密 码 为 Ow!。 浏 览 器 用 冒号 将 用 户 名 和 密码 连接 起 来 ， 生 成 一 个 打包 字 
TF tB brian-totty:Ow!。 然 后 对 这 个 字符 串 进 行 Base-64 编码 ， 变 成 一 串 乱 码 : 
YnJpYWAtdG90dHk6T3ch, 












































x i ""brian-totty 
(a) 提示 用 户 输入 用 户 名 和 密码 “ 
Ow! 
brian-totty E OON 
(b) 用 冒号 将 用 户 名 和 密码 连接 起 来 i vbrian-totty:Owl 
(c) Base-64 编 码 BASEGA4ENC(brian-totty:0Ow!)......... > YnJpYW4tdG90dHk6T3ch 
(d) 发 送 认证 信息 ul B 
客户 端 服务 器 
GET /family/jeff.jpg HTTP/1.0 
Authorization: Basic YnJpYW4tdG9odHk6T3ch | > 
图 12-4 从 用 户 名 和 密码 中 生成 一 个 基本 认证 首部 


Base-64 编码 可 以 接受 二 进 制 字符 串 、 文 本 、 国 际 字符 表示 的 数据 (在 某 些 系统 中 
会 引发 一 些 问题 )， 将 其 暂时 转换 成 一 个 易 移 植 的 字母 表 以 便 传输 。 然 后 ， 在 远 端 就 
可 以 解码 出 原始 字符 串 ， 而 无 需 担心 传输 错误 了 。 


有 些 用 户 名 和 密码 中 会 包含 国际 字符 或 其 他 在 HTTP 首部 中 非法 的 字符 (比如 引号 、 
冒号 和 回 车 换行 符 )， 对 这 些 用 户 名 和 密码 来 说 ，Base-64 编码 是 非常 有 用 的 。 而 
且 ，Base-64 编码 扰乱 了 用 户 名 和 密码 ， 这 样 也 可 以 防止 管理 员 在 管理 服务 器 和 网 
络 时 ， 不 小 心 看 到 用 户 名 和 密码 。 





12.2.3 代理 认证 

中 间 的 代理 服务 器 也 可 以 实现 认证 功能 。 有 些 组 织 会 在 用 户 访问 服务 器 、LAN 或 无 
线 网 络 之 前 ， 用 代理 服务 器 对 其 进行 认证 。 可 以 在 代理 服务 器 上 对 访问 策略 进行 集中 
管理 ， 因 此 ， 通 过 代理 服务 器 提供 对 某 组 织 内 部 资源 的 统一 访问 控制 是 一 种 很 便捷 的 
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方式 。 这 个 过 程 的 第 一 步 就 是 通过 代理 认证 (proxy authentication) 来 识别 身份 。 


代理 认证 的 步骤 与 Web 服务 器 身份 验证 的 步骤 相同 。 但 首部 和 状态 码 都 有 所 不 同 。 
表 12-3 列 出 了 Web 服务 器 和 代理 在 认证 中 使 用 的 状态 码 和 首部 的 差异 。 


表 12-3 Web 服务 器 与 代理 认证 








Web 服 务 器 代理 服务 器 
Unauthorized status code: 401 Unauthorized status code: 407 
WWW-Authenticate Proxy-Authenticate 
Authorization Proxy-Authorization 
Authentication-Info Proxy-Authentication-Info 


` ` ma Fa 
12.3 基本 认证 的 安全 缺陷 
基本 认证 简单 便捷 ， 但 并 不 安全 。 只 能 用 它 来 防止 非 恶 意 用 户 无 意 间 进行 的 访问 ， 
或 将 其 与 SSL 这 样 的 加 密 技术 配合 使 用 。 


基本 认证 存在 下 列 安全 缺陷 。 


(1) 基本 认证 会 通过 网 络 发 送 用 户 名 和 密码 ， 这 些 用 户 名 和 密码 都 是 以 一 种 很 容易 

解码 的 形式 表示 的 。 实 际 上， 密码 是 以 明文 形式 传输 的 ， 任 何人 都 可 以 读 取 并 将 
其 捕获 。 虽 然 Base-64 编码 通过 隐藏 用 户 名 和 密码 ， 致 使 友好 的 用 户 不 太 可 能 在 
进行 网 络 观测 时 无 意 中 看 到 密码 ， 但 Base-64 编码 的 用 户 名 和 密码 可 以 很 轻易 地 
通过 反 向 编码 过 程 进行 解码 ， 其 至 可 以 用 纸 笔 在 几 秒 钟 内 手工 对 其 进行 解码 ! 所 
以 经 过 Base-64 编码 的 密码 实际 上 就 是 “明文 ”传送 的 。 如 果 有 动机 的 第 三 方 用 
户 有 可 能 会 去 拦截 基本 认证 发 送 的 用 户 名 和 密码 ， 就 要 通过 SSL 加 密 信道 发 送 
所 有 的 HTTP 事务 ,或 者 使 用 更 安全 的 认证 协议 ， 比 如 摘要 认证 。 


(2) 即使 密码 是 以 更 难 解 码 的 方式 加 密 的 ， 第 三 方 用 户 仍然 可 以 捕获 被 修改 过 的 用 户 
名 和 密码 ， 并 将 修改 过 的 用 户 名 和 密码 一 次 一 次 地 重 放 给 原始 服务 器 ， 以 获得 对 
服务 器 的 访问 权 。 没 有 什么 措施 可 用 来 防止 这 些 重 放 攻 击 。 


(3) 即使 将 基本 认证 用 于 一 些 不 太 重 要 的 应 用 程序 ， 比 如 公司 内 部 网 络 的 访问 控制 或 
个 性 化 内 容 的 访问 ， 一 些 不 良 习 惯 也 会 让 它 变 得 很 危险 。 很 多 用 户 由 于 受 不 了 大 
量 密码 保护 的 服务 ， 会 在 这 些 服务 间 使 用 相同 的 用 户 名 和 密码 。 比 如 说 ， 某 个 狂 
独 的 恶 徒 会 从 免费 的 因特网 邮件 网 站 捕获 明文 形式 的 用 户 名 和 密码 ， 然 后 会 发 现 
用 同样 的 用 户 名 和 密码 还 可 以 访问 重要 的 在 线 银行 网 站 ! 





















































300 | 第 12 章 


(4) 基本 认证 没有 提供 任何 针对 代理 和 作为 中 间 人 的 中 间 节 点 的 防护 措施 ， 它 们 没有 
修改 认证 首部 ， 但 却 修改 了 报 文 的 其 余部 分 ， 这 样 就 严重 地 改变 了 事务 的 本 质 。 


(5) 假冒 服务 器 很 容易 骗 过 基本 认证 。 如 果 在 用 户 实际 连接 到 一 台 恶 意 服 务 器 或 网 关 
的 时 候 ， 能 够 让 用 户 相 信和 他 连接 的 是 一 个 受 基 本 认证 保护 的 合法 主机 ， 攻 击 者 就 
可 以 请 求 用 户 输入 密码 ， 将 其 存储 起 来 以 备 未 来 使 用 ， 然 后 捏造 一 条 错误 信息 传 
送 给 用 户 。 

一 切 说 明 ， 在 友好 的 环境 ， 或 者 说 是 希望 有 隐私 保护 但 隐私 保护 并 不 十 分 必要 的 
环境 中 ， 可 以 通过 基本 认证 来 提供 便捷 的 文档 个 性 化 服务 或 访问 控制 保护 。 E 
种 方式 ， 可 以 用 基本 认证 来 防止 一 些 好 奇 的 用 户 无 意 中 或 不 小 心 对 文档 进行 访问 。 
比如 ， 在 一 个 公司 内 部 ， 产 品 管理 可 能 要 对 未 来 的 产品 计划 进行 密码 保护 ， 以 防止 
信息 的 过 早 发 布 。 对 一 i: Dn E 
问 这 些 数 据 了 。? 同样， 你 可 能 会 用 密码 来 保护 那些 并 非 高 度 机 密 的 ， 或 者 没什么 信 
息 价值 的 私人 照片 或 私有 站 点 ， 这 些 信息 确实 和 其 他 人 也 没什么 关系 。 

将 基本 认证 与 加 密 数据 传输 (比如 SSL) 配合 使 用 ， 向 恶意 用 户 隐藏 用 户 名 和 密码 ， 

会 使 基本 认证 变 得 更 加 安全 。 这 是 一 种 常用 的 技巧 。 

我 们 会 在 第 14 章 讨 论 安 全 加 密 技术 。 下 一 章 将 介绍 更 复杂 的 HTTP 认证 协议 一 一 摘 

要 认证 ， 摘 要 认证 具有 比 基 本 认证 更 强 的 安全 特性 。 


12.4 更 多 信息 


更 多 与 基本 认证 和 LDAP 有 关 的 信息 ， 请 参见 以 下 资源 。 












































° http://www.ietf.org/rfc/rfc2617 .txt 
RFC 2617, “HTTP Authentication: Basic and Digest Access Authentication.” 
(“HTTP 认证 : 基本 和 摘要 访问 认证 ”) 


° http://www.ietf.org/rfc/rfc2616.txt 
RFC 2616, "Hypertext Transfer Protocol-HTTP/1.1.”(“ 超 文本 传输 协议 一 一 
HTTP/1.1”。) 








注 1: 小 心 ， 基 本 认证 中 使 用 的 用 户 名 和 密码 要 有 别 于 你 在 更 安全 的 系统 中 所 使 用 的 密码 ， 否 则 恶意 用 户 就 
可 以 用 它们 来 攻破 你 的 安全 账户 了 ! 
注 2: 尽管 不 是 非常 安全 ， 但 公司 内 部 的 员工 通常 也 没有 太 大 的 动力 去 恶意 捕获 这 些 密码 。 这 也 说 明 ， 公 司 
确实 会 有 间谍 ， 也 确实 会 有 不 满 ， 想 要 报复 的 员工 ， 所 以 ， 明 智 的 做 法 是 对 一 旦 被 恶意 获取 就 会 造成 
很 大 损害 的 数据 应 用 更 安全 的 策略 。 
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基本 认证 便捷 灵活 ， 但 极 不 安全 。 用 户 名 和 密码 都 是 以 明文 形式 传送 的 ，' 也 没有 采取 
任何 措施 防止 对 报 文 的 自 改 。 安 全 使 用 基本 认证 的 唯一 方式 就 是 将 其 与 SSL 配合 使 用 。 


摘要 认证 与 基本 认证 兼容 ， 但 却 更 为 安全 。 本 章 主要 介绍 摘要 认证 的 原理 和 实际 应 用 。 
尽管 摘要 认证 还 没有 得 到 广泛 应 用 ， 但 对 实现 安全 事务 来 说 ， 这 些 概念 是 非常 重要 的 。 


13.1 摘要 认证 的 改进 

摘要 认证 是 另 一 种 HTTP 认证 协议 ， 它 试图 修复 基本 认证 协议 的 严重 缺陷 。 有 具体 来 
说 ， 摘 要 认证 进行 了 如 下 改进 。 

° 永远 不 会 以 明文 方式 在 网 络 上 发 送 密码 。 

° 可 以 防止 恶意 用 户 捕获 并 重 放 认证 的 握手 过 程 。 

° 可 以 有 选择 地 防止 对 报 文 内 容 的 算 改 。 

。 防范 其 他 几 种 常见 的 攻击 方式 。 


摘要 认证 并 不 是 最 安全 的 协议 。- 摘要 认证 并 不 能 满足 安全 HTTP 事务 的 很 多 需求 。 
对 这 些 需 求 来 说 ， 使 用 传输 层 安 全 (Transport Layer Security，TLS) 和 安全 HTTP 
(Secure HTTP, HTTPS) 协议 更 为 合适 一 些 。 


但 摘要 认证 比 它 要 取代 的 基本 认证 强大 很 多 。 与 很 多 建议 其 他 因特网 服务 使 用 的 常 
用 策略 相 比 ，( 比 如 曾 建议 LDAP, POP 和 IMAP 使 用 的 CRAM-MDS), ， 摘 要 认证 
也 要 强大 很 多 。 


迄今 为 止 ， 摘 要 认证 还 没有 被 广泛 应 用 。 但 由 于 基本 认证 存在 固有 的 安全 风险 ， 
HTTP 设计 者 曾 在 RFC 2617 中 建议 :“ 在 可 行 的 情况 下 应 该 将 目前 在 用 的 所 有 使 用 
基本 认证 的 服务 ， 尽 快 地 转换 为 摘要 认证 方式 。 “这 个 标准 的 前 景 还 不 太 明 朗 。 


13.1.1 用 摘要 保护 密码 

摘要 认证 遵循 的 艇 言 是 “ 绝 不 通过 网 络 发 送 密 码 ”。 客 户 端 不 会 发 送 窗 码 ， 而 是 会 发 
送 一 个 “指纹 ”或 密码 的 “摘要 ”， 这 是 密码 的 不 可 逆 扰 码 。 客 户 端 和 服务 器 都 知 
道 这 个 密码 ， 因 此 服务 器 可 以 验证 所 提供 的 摘要 是 否 与 密码 相 匹 瑟 。 只 拿 到 摘要 的 
话 ， 除 了 将 所 有 的 密码 都 拿 来 试 试 之 外 ， 没 有 其 他 方法 可 以 找 出 摘要 是 来 自 哪 个 密 









































注 1: 用 户 名 和 密码 用 Base-64 编码 进行 了 扰 码 ， 但 很 容易 被 解码 。 只 能 防止 无 意 中 的 查看 ， 没 有 任何 防止 
恶意 用 户 攻击 的 手段 。 

注 2: 比如 ， 与 基于 公有 密 钥 的 机 制 相 比 ， 摘 要 认证 所 提供 的 认证 机 制 就 不 够 强 。 同 样 ， 搞 要 认证 除了 能 保 
护 密码 外 ， 并 没有 提供 保护 其 他 内 容 的 方式 一 一 请 求 和 应 答 中 的 其 余部 分 仍然 可 能 被 窃听 。 

注 3: 随 着 SSL 加 密 HTTP 的 流行 和 广泛 采用 ， 有 关 摘 要 认证 的 现实 意义 曾 有 过 很 激烈 的 和 争论。 时 间 将 会 
告诉 我 们 摘要 认证 能 否 达到 所 需 的 规模 。 
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码 的 ! * 
下 面 来 看 看 摘要 认证 的 工作 原理 





(这 是 一 个 简化 版 本 ) 。 


° 在 图 13-1a 中 ， 客 户 端 请 求 了 某 个 受 保护 文档 。 

° 在 图 13-1b 中 ， 在 客户 端 能 够 证 明 其 知道 密码 从 而 确认 其 身份 之 前 ， 服 务 器 拒绝 
提供 文档 。 服 务 器 向 客户 端 发 起 质询 ， 询 问 用 户 名 和 摘要 形式 的 密码 。 

° 在 图 13-lc 中 ， 客 户 端 传递 了 密码 的 摘要 ， 证 明 它 是 知道 密码 的 。 服 务 器 知道 所 
有 用 户 的 密码 ，” 因此 可 以 将 客户 提供 的 摘要 与 服务 器 自己 计算 得 到 的 摘要 进行 














比较 ， 以 验证 用 户 是 否 知道 密码 。 另 一 


确 的 摘要 。 


方 在 不 知道 密码 的 情况 下 ， 很 难 伪造 出 正 


° 在 图 13-1d 中 , 服务 器 将 客户 端 提 供 的 摘要 与 服务 器 内 部 计算 出 的 摘要 进行 对 比 。 
如 果 匹 配 ， 就 说 明 客户 端 知道 密码 〈 或 者 很 笠 运 地 猜 中 了 ! )。 可 以 设置 摘要 函 





数 ， 使 其 产生 很 多 数字 ， 让 人 不 可 能 和 幸运 地 猜 中 摘要 。 服 务 器 进行 了 匹配 验证 之 






































后 ， 会 将 文档 提供 给 客户 端 一 一 整个 过 程 都 没有 在 网 络 上 发 送 密码 。 
(a) 请 求 L—— FL SO... B 请 将 内 部 销售 额 顶 测 发 给 我 
客户 端 服务 器 
(b) 质询 A 你 请 求 的 是 一 个 保密 的 财务 文档 。 
ses BN S B 户 名 和 窗 码 摘要 。 
客户 端 服务 器 
询问 用 户 名 和 密码 
digest( "Ow!" )= A3F5 
Y 
(c) 授权 请 将 内 部 销售 额 预 测 发 给 我 。 我 的 用 
TL psesen EL w 户 名 为 “bri"， 我 的 密码 摘要 为 "A3F5” 
客户 端 服务 器 
digest("Ow!")- A3F5 v 
匹配 | 
(d) 成 功 £= š 好 的 。 你 发 送 过 来 的 摘要 与 我 存储 的 
加 Wr =» ] mE: 匹配 ， 这 是 你 要 的 文档 。 
客户 端 服务 器 
图 13-1 用 摘要 来 实现 隐藏 密码 的 认证 

















注 4: 有 一 些 技术 ， 比 如 词典 攻击 ， 会 首先 尝试 
译 进程 。 
注 5: 实际 上 ， 服 务 器 只 需要 知道 密码 的 摘要 即 可 。 


























些 常见 的 密码 。 这 些 密码 分 析 技 术 可 以 极 大 地 简化 密码 破 
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我 们 将 在 表 13-8 中 更 详细 地 讨论 摘要 认证 中 那些 特殊 的 首部 。 


13.1.2 ”单身 摘要 


摘要 是 “对 信息 主体 的 浓缩 *。" 摘要 是 一 种 单 向 函数 ， 主 要 用 于 将 无 限 的 输入 值 转 
换 为 有 限 的 浓缩 输出 值 。 常见 的 摘要 函数 MD5,“ 会 将 任意 长 度 的 字 节 序列 转换 为 


一 个 128 位 的 摘要 。 
128 位 = 2 天 ， 或 者 大 约 


1 000 000 000 000 000 000 000 000 000 000 000 000 000 种 不 同 的 输出 值 。 


对 这 些 摘要 来 说 ， 最 重要 的 是 如 果 不 知道 密码 的 话 ， 要 想 正确 地 猜 出 发 送 给 服务 器 
的 摘要 将 是 非常 困难 的 。 同 样 ， 如 果 有 摘要 ， 想 要 判断 出 它 是 由 无 数 输入 值 中 的 哪 




















一 个 产生 的 ， 也 是 非常 困难 的 。 





MD5 输出 的 128 位 的 摘要 通常 会 被 写成 32 个 十 六 进 制 的 字符 ， 每 个 字符 表示 4 位 。 
表 13-1 给 出 了 几 个 示例 输入 的 MD5 摘要 。 注 意 MD5 是 怎样 根据 任意 的 输入 产生 








定 长 的 摘要 输出 的 。 
表 13-1 MD5 摘 要 实例 
输 入 MD5 摘 要 
"Hi" C1A5298F939E87E8F962A5EDFC206918 
"bri:Ow!" BEAAA0E34EBDB072F8627C038AB211F8 





"3.1415926535897" 


475B977E19ECEE70835BC6DF46F4F6DE 





"http://www.http-guide.com/index.htm" 


C617C0C7D1D05F66F595E22A4B0EAAA5 





"WE hold these Truths to be self-evident, that all Men 
are created equal, that they are endowed by their Creator 
with certain unalienable Rights, that among these are Life, 
Liberty and the Pursuit of Happiness— That to secure these 
Rights, Governments are instituted among Men, deriving 
their just Powers from the Consent of the Governed, that 
whenever any Form of Government becomes destructive 
of these Ends, it is the Right of the People to alter or to 
abolish it, and to institute new Government, laying its 
Foundation on such Principles, and organizing its Powers in 
such Form, as to them shall seem most likely to effect their 
Safety and Happiness." 




















注 6: 韦 氏 词典 ，1998 年 。 





66C4EF58DA7CB956BD04233FBB64E0A4 


注 7: 理论 上 来 讲 ， 我 们 将 数量 无 限 的 输入 值 转换 成 了 数量 有 限 的 输出 值 ， 所 以 两 个 不 同 的 输入 值 就 可 能 映 





射 为 同一 个 摘要 。 这 种 情况 被 称 为 冲突 (collision)。 实 际 上 ， 由 于 可 用 输出 值 的 数量 足够 大 ， 所 以 在 











现实 生活 中 ， 出 现 冲 突 的 可 能 是 微乎其微 的 ， 对 我 们 要 实现 的 密码 匹配 来 说 并 不 重要 。 
注 8: MD5 表示 “ 报 文摘 要 的 第 五 版 "， 是 摘要 算法 系列 中 的 一 种 。 安 全 散 列 算法 (Secure Hash Algorithm, 














SHA) 是 另 一 种 常见 的 摘要 函数 。 














有 时 也 将 摘要 函数 称 为 加 密 的 校 验 和 、 单 向 散 列 函 数 或 指纹 函数 。 


13.1.3 用 随机 数 防止 重 放 攻击 
使 用 单 向 摘要 就 无 需 以 明文 形式 发 送 密码 了 。 可 以 只 发 送 密码 的 摘要 ， 而 且 可 以 确 
信 ， 没 有 哪个 恶意 用 户 能 轻易 地 从 摘要 中 解码 出 原始 密码 。 


但 是 ， 仅 仅 隐 藏 密码 并 不 能 避免 危险， 因为 即便 不 知道 密码 ， 别 有 用 心 的 人 也 可 以 
截获 摘要 ， 并 一 遍 遍 地 重 放 给 服务 器 。 搞 要 和 密码 一 样 好 用 。 

为 防止 此 类 重 放 攻 击 的 发 生 ， 服 务 器 可 以 向 客户 端 发 送 一 个 称 为 随机 数 (nonce) ° 
的 特殊 令 牌 ， 这 个 数 会 经 常 发 生变 化 〈 可 能 是 每 毫秒 ， 或 者 是 每 次 认证 都 变化 ) 。 客 
户 端 在 计算 摘要 之 前 要 先 将 这 个 随机 数 令 牌 附加 到 密码 上 去 。 

在 密码 中 加 入 随机 数 就 会 使 摘要 随 着 随机 数 的 每 一 次 变化 而 变化 。 记 录 下 的 密码 摘 
要 只 对 特定 的 随机 值 有 效 ， 而 没有 密码 的 话 ， 攻 击 者 就 无 法 计算 出 正确 的 摘要 ， 这 
样 就 可 以 防止 重 放 攻 击 的 发 生 。 

摘要 认证 要 求 使 用 随机 数 ， 因 为 这 个 小 小 的 重 放 弱 点 会 使 未 随机 化 的 摘要 认证 变 得 
和 基本 认证 一 样 脆弱 。 随 机 数 是 在 www-Authenticate 质询 中 从 服务 器 传送 给 客户 
端的 。 


13.1.4 摘要 认证 的 握手 机 制 
HTTP 摘要 认证 协议 是 一 种 升级 版 的 认证 方式 ， 所 用 首部 与 基本 认证 类 似 。 它 在 传统 
首部 中 添加 了 一 些 新 的 选项 ， 还 添加 了 一 个 新 的 可 选 首部 Authorization-Info。 


图 13-2 描述 了 简化 的 摘要 认证 三 步 握 手机 制 。 
13-2 中 发 生 的 情况 如 下 所 述 。 


° 在 第 (1) 步 中 ， 服 务 器 会 计算 出 一 个 随机 数 。 在 第 (2) 步 中 ， 服 务 器 将 这 个 随 
机 数 放 在 WWW-Authenticate 质询 报 文中 ， 与 服务 器 所 支持 的 算法 列表 一 同 发 
往 客户 端 。 

。 在 第 (3) 步 中 , 客户 端 选择 一 个 算法 ,计算 出 密码 和 其 他 数据 的 摘要 。 在 第 (4) 
步 中 ， 将 摘要 放 在 一 条 Authorization 报 文中 发 回 服务 器 。 如 果 客 户 端 要 对 服 
务 器 进行 认证 ， 可 以 发 送 客 户 端 随机 数 。 

° 在 第 (5) 步 中 ， 服 务 器 接收 摘要 、 选 中 的 算法 以 及 支撑 数据 ， 计 算出 与 客户 端 
相同 的 摘要 。 然 后 服务 器 将 本 地 生成 的 摘要 与 网 络 传送 过 来 的 摘要 进行 比较 ， 验 




















注 9: 随机 数 这 个 词 表示 “本 次 ”或 “临时 的 "。 在 计算 机 安全 的 概念 中 ， 随 机 数 捕获 了 一 个 特定 的 时 间 点 ， 
将 其 加 入 到 安全 计算 之 中 。 
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证 其 是 否 匹 配 。 如 果 客 户 端 反 过 来 用 客户 端 随 机 数 对 服务 器 进行 质询 ， 就 会 创建 
客户 端 摘要 。 服 务 器 可 以 预先 将 下 一 个 随机 数 计算 出 来 , 提前 将 其 传递 给 客户 端 ， 
这 样 下 一 次 客户 端 就 可 以 预先 发 送 正确 的 摘要 了 。 








(1) 服务 器 产生 随机 数 





à C a Ç 
ww Aur hen e ap RA 
(3) 从 算法 集中 选择 agy WAS i: 
一 个 算法 。[ 产 生 响应 


摘要 1 产生 客户 端 随机 数 ] 7mm ond pate 








(5) 服务 器 对 摘要 进行 认 
i 证 [产生 rspauth 摘 要 ] 产生 
on-info S) — 下 一 个 随机 数 ] 





i cati 





NEU AM 
(T) 客户 端 验证 qu cic PSP 
Ispauth 摘 要 











13-2 ”摘要 认证 的 握手 机 制 

这 些 信息 中 很 多 是 可 选 的 ， 而且 有 默认 值 。 为 了 说 明 问 题 ， 图 13-3 对 比 了 基本 认证 中 
发 送 的 报 文 (参见 图 13-3a 至 图 13-3d) 与 简单 的 摘要 认证 实例 发 送 的 报 文 (参见 图 
13-3e 至 图 13-3h)。 


现在 我 们 来 更 详细 地 探讨 摘要 认证 的 内 部 工作 原理 。 


19.2 摘要 的 计算 

摘要 认证 的 核心 就 是 对 公共 信息 、 保 密 信息 和 有 时 限 的 随机 值 这 个 组 合 的 单 向 摘要 。 
现在 我 们 来 看 看 这 些 摘要 是 如 何 计算 出 来 的 。 摘 要 计算 通常 都 是 简单 易 慌 的 。" 附 
录 下 提供 了 示例 源 代码 。 


13.2.1 摘要 算法 的 输入 数据 
摘要 是 根据 以 下 三 个 组 件 计算 出 来 的 。 


° 由 单 向 散 列 函 数 H(d) 和 摘要 KD(s,q) 组 成 的 一 对 函数 ， 其 中 s 表示 密码 ，d 表示 
数据 。 

















iE 10: 但 对 初学 者 来 说 ， 可 选 的 RFC 2617 兼容 模式 以 及 规范 中 背景 资料 的 缺乏 ， 使 其 变 得 有 些 复 杂 。 我 
们 会 努力 提供 一 些 帮助 。 
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基本 认证 








(a) 查 询 u 
———— ——M———————— »- 
Vm. | GET /cgi-bin/checkout?cart-17854 HTTP/1.1 € 
客户 端 服务 器 














Mi Ll 
E rr ERES 
"a HTTP/1.1 401 Unauthorized 











H & Pm WWW-Authenticate: Basic realm-"Shopping Cart" | 服务 器 
Shopping Cart 






Username: 
Password: 


人) 响应 ^ 


SIEI DAEN ASEE i i Di Wn i wi WR Di a ETE P”, 





GET /cgi-bin/checkout?cart-17854 HTTP/1.1 
客户 端 Authorization: Basic YnJpYW4tdG9odHk6T3ch 服务 器 





À L 
DRE 
HTTP/1.1 200 OK 




























































客户 端 服务 器 
摘要 认证 
(e) 查 询 u 
——————Ó—————————M—— € > 
7m. | GET /cgi-bin/checkout?cart-17854 HTTP/1.1 
客户 端 服务 器 
(sif 
————————————— € AE 
En. HTTP/1.1 401 Unauthorized 
ESTE: WAuthenticate: Digest 服务 器 
i realm="Shopping Cart" 
Shopping Cart 0 B"auth,auth int" 
Username: nonce="66C4EF58DA7CB956BD04233FBB64E0A4" 
Password: 
— 
(gm); Y ee Vv s 9 S LL " 
GET /cgi-bin/checkout?cart-17854 HTTP/1.1 
客户 端 | Authorization: Digest 服务 器 
username="bri" 
reo Im oboppin Cart" 
noncez"66C4EF58DA7CB956BD04233FBB64EO0A4" 
uri-"/cgi-bin/checkout?cart-17854" 
op-" auth" 
nc-0000001, 
cnonce-" CFA9207102EA210EA210FFC1120F6001110D073" 
response-"E483C94F0B3CA29109A7BA83D10FE519" 
四 成 功 LI- dl dd 
HTTP/1.1 200 OK 
Authorization-Info: nextnonce= 服务 器 


"29FE72D109C7EF23841AB914F0C3B831" 

qop= 0auth0 
rspauth="89F5A4CE6FA932F6C4DA120CEB754290" 
cnonce="CFA9207102EA210EA210FFC1120F6001110D073" 




















& 13-3 ”基本 认证 与 摘要 认证 的 语法 对 比 
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。 一 个 包含 了 安全 信息 的 数据 块 ， 包 括 密码 ， 称 为 Al 。 
。 一 个 包含 了 请 求 报 文中 非 保 密 属 性 的 数据 块 ， 称 为 A2。 


H 和 KD 处 理 两 块 数据 Al 和 A2， 产 生 摘 要 。 


13.2.2 ”算法 H(o) 和 KD(s,o) 
摘要 认证 支持 对 各 种 摘要 算法 的 选择 。RFC 2617 建议 的 两 种 算法 为 MD5 和 MD5- 
sess (“sess” 表 示 会 话 )， 如 果 没 有 指定 其 他 算法 ， 默 认 算 法 为 MD5。 


不 管 使 用 的 是 MD5 还 是 MD5-sess， 都 会 用 函数 旦 来 计算 数据 的 MD5， 用 摘要 函 
数 KD 来 计算 以 冒号 连接 的 密码 和 非 保 窗 数 据 的 MD5。 例 如 : 





H(«data») = MD5(«data») 
KD(«secret»,«data») - H(concatenate(«secret»:«data»)) 


13.2.3 与 安全 性 相关 的 数据 (A1) 

AERA Al 的 数据 块 是 密码 和 受 保护 信息 的 产物 ， 它 包含 有 用 户 名 、 密 码 、 保 护 域 
和 随机 数 等 内 容 。Al 只 涉及 安全 信息 ， 与 底层 报 文 自身 无 关 。A1l 会 与 H、KD 和 
A2 一 同 用 于 摘要 计算 。 


RFC 2617 根据 选择 的 算法 定义 了 两 种 计算 Al 的 方式 。 








° MD5 
为 每 条 请 求 运行 单 向 散 列 函数 。A1l 是 由 冒号 连接 起 来 的 用 户 名 、 域 以 及 密码 三 元 组 。 


° MD5-sess 
只 在 第 一 次 WWW-Authenticate 握手 时 运行 一 次 散 列 函数 。 对 用 户 名 、 域 和 密码 进 
行 一 次 CPU 密集 型 散 列 ， 并 将 其 放 在 当前 随机 数 和 客户 端 随机 数 (cnonce) 的 前 面 。 





表 13-2 显示 了 Al 的 定义 。 


表 13-2 算法 对 A1 的 定义 
算法 A1 


MD5 Al - «user»:«realm»:«password» 





MD5-sess Al = MD5(«user»:«realm»:«password»):«nonce»:«cnonce» 


13.2.4 与 报 文 有 关 的 数据 (A2) 
数据 块 A2 表示 的 是 与 报 文 自身 有 关 的 信息 ， 比 如 URL、 请 求 方法 和 报 文 实体 的 主 
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体 部 分 。A2 有 助 于 防止 方法 、 资 源 或 报 文 被 算 改 。A2 2:55 H. KD 和 Al 一 起 用 于 
摘要 的 计算 。 


RFC 2617 根据 所 选择 的 保护 质量 (qop), 为 A2 定义 了 两 种 策略 。 


。 第 一 种 策略 只 包含 HTTP 请 求 方法 和 URL, ?4 qop="auth" 时 使 用 这 种 策略 ， 
这 是 默认 的 情况 。 

。 第 二 种 策略 添加 了 报 文 实体 的 主体 部 分 ， 以 提供 一 定 程 度 的 报 文 完整 性 检测 。 
qop="auth-int" 时 使 用 。 

表 13-3 显示 了 A2 的 定义 。 


表 13-3 ”算法 对 A2 的 定义 (请求 摘要 ) 





qop A2 
未 定义 <request-method>:<uri-directive-value> 
auth <request-method>:<uri-directive-value> 
auth-int <request-method>:<uri-directive-value>:H(<request-entity- 
body>) 


request-method 是 HTTP 的 请 求 方法 。uri-directive-value 是 请 求 行 中 的 请 
求 URI。 可 能 是 个 "*". absoluteURL 或 者 abs_path， 但 它 必 须 与 请 求 URI 一 致 。 
尤其 需要 注意 的 是 ， 如 果 请 求 URI 是 apsoluteURL， 它 必须 是 个 绝对 URL, 


19.2.5 ”摘要 算法 总 述 
RFC 2617 定义 了 两 种 给 定 了 H、KD、Al 和 A2 之 后 ， 计 算 摘 要 的 方式 。 


。 第 一 种 方式 要 与 老 规 范 RFC 2069 兼容 ， 在 没有 qop 选项 的 时 候 使 用 。 它 是 用 保 
密 信 息 和 随机 报 文 数 据 的 散 列 值 来 计算 摘要 的 。 

。 第 二 种 方式 是 现在 推荐 使 用 的 方式 一 一 这 种 方式 包含 了 对 随机 数 计算 和 对 称 认证 
的 支持 。 只 要 qop 为 auth 或 auth-int， 就 要 使 用 这 种 方式 。 它 向 摘要 中 添加 
了 随机 计数 、gqop 和 cnonce 数据 。 


K 13-4 给 出 了 得 到 的 摘要 函数 定义 。 注 意 得 到 的 摘要 使 用 了 H、KD、Al 和 A2。 
表 13-4 ”新 / 老 摘要 算法 











qop 摘要 算法 备 注 
未 定义 KD (H(A1), <nonce>:H(A2)) 不 推荐 
auth X auth-int KD(H(A1), «nonce»:«nc»:«cnonce»:«qgop»:H(A2)) 推荐 
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这 些 派 生 封 装 层 很 容易 把 人 和 弄 量 。 这 也 是 有 些 读者 觉得 RFC 2617 难 懂 的 原因 之 一 。 
为 了 简化 ， 表 13-5 扩展 了 H 和 KD 的 定义 ， 用 Al 和 A2 来 表示 摘要 。 
表 13-5 ”展开 的 摘要 算法 备 忘 单 

qop 算 法 展开 的 算法 


未 定义 <undefined> MD5 (MD5 (A1) : «nonce»:MD5 (A2) ) 
MD5 





MD5-sess 

auth «undefined» MD5 (MD5 (A1) :«nonce»:«nc»:«cnonce»:«qgop» :MD5 (A2) ) 
MD5 
MD5-sess 

auth-int «undefined» MD5 (MD5 (A1) : «nonce»:«nc»:«cnonce»:«qop»:MD5 (A2) ) 
MD5 





MD5-sess 


13.2.6 ”摘要 认证 会 话 
客户 端 响应 对 保护 空间 的 www_aAuthenticate 质询 时 ， 会 启动 一 个 此 保护 空间 的 认 
证 会 话 (与 受 访问 服务 器 的 标准 根 结合 在 一 起 的 域 就 定义 了 一 个 “保护 空间 ”)。 


在 客户 端 收 到 另 一 条 来 自 保护 空间 的 任意 一 台 服 务 器 的 Www-Authenticate Ji 
询 之 前 ， 认 证 会 话 会 一 直 持 续 。 客 户 端 应 该 记 住 用户 名 、 密 码 、 随 机 数 、 随 机 数 
计数 以 及 一 些 与 认证 会 话 有 关 的 隐 临 值 ， 以 便 将 来 在 此 保护 空间 中 构建 请 求 的 
Authorization 首部 时 使 用 。 


随机 数 过 期 时 ， 即 便 老 的 Authorization 首部 所 包含 的 随机 数 不 再 新 鲜 了 ， 服 务 
器 也 可 以 选择 接受 其 中 的 信息 。 服 务 器 也 可 以 返回 一 个 带 有 新 随机 数 的 401 响应 ， 
让 客户 端 重 试 这 条 请 求 ， 指 定 这 个 响应 为 stale=true， 表 示 服 务 器 在 告知 客户 端 
用 新 的 随机 数 来 重 试 ， 而 不 再 重新 提示 输入 新 的 用 户 名 和 密码 了 。 











13.2.7 MŽ 
在 普通 的 认证 方式 中 ， 事务 结束 之 前 ， 每 条 请 求 都 要 有 一 次 请 求 /质询 的 循环 ， 参 
见 图 13-4a。 























如 果 客 户 端 事先 知道 下 一 个 随机 数 是 什么 ， 就 可 以 取消 这 个 请 求 / 质询 循环 ， 这 样 
客户 端 就 可 以 在 服务 器 发 出 请 求 之 前 ， 生 成 正确 的 Authorization 首部 了 。 如 果 
客户 端 能 在 服务 器 要 求 它 计 算 Authorization 首部 之 前 将 其 计算 出 来 ， 就 可 以 预 
先 将 Authorization 首部 发 送 给 服务 器 ， 而 不 用 进行 请 求 /质询 了 。 图 13-4b 显示 
了 这 种 方式 对 性 能 的 影响 。 
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(b) 预 授 权 
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图 19-4 预 授权 减少 了 报 文 的 数量 


预 授 权 对 基本 认证 来 说 并 不 重要 (而 且 很 常见 ) 。 浏 览 器 通常 会 维护 一 些 客户 端 数据 
库 以 存储 用 户 名 和 密码 。 一 旦 用 户 与 某 站 点 进行 了 认证 ， 浏 览 器 通常 会 为 后 继 对 那 
个 URL 的 请 求 发 送 正确 的 Authorization 首部 (参见 第 12 章 )。 

由 于 摘要 认证 使 用 了 随机 数 技术 来 破坏 重 放 攻 击 ， 所 以 对 摘要 认证 来 说 ， 预 授权 要 
稍微 复杂 一 些 。 服 务 器 会 产生 任意 的 随机 数 ， 所 以 在 客户 端 收 到 质询 之 前 ， 不 一 定 
总 能 判定 应 该 发 送 什 么 样 的 Authorization 首部 。 

摘要 认证 在 保留 了 很 多 安全 特性 的 同时 ， 还 提供 了 几 种 预 授权 方式 。 这 里 列 出 了 三 
种 可 选 的 方式 ， 通 过 这 些 方式 ， 客 户 端 无 需 等 待 新 的 WWW-Authenticate 质询 ， 就 





可 以 获得 正确 的 随机 数 : 

















° 服务 器 预先 在 Authentication-Info 成 功 首 部 中 发 送 下 一 个 随机 数 ， 
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° 服务 器 允许 在 一 小 段 时间 内 使 用 同一 个 随机 数 ; 
° 客户 端 和 服务 器 使 用 同步 的 、 可 预测 的 随机 数 生成 算法 。 


1. 预先 生成 下 一 个 随机 数 
可 以 在 authentication-Info 成 功 首部 中 将 下 一 个 随机 数 预先 提供 给 客户 端 。 这 
个 首部 是 与 前 一 次 成 功 认 证 的 200 OK 响应 一 同 发 送 的 。 





Authentication-Info: nextnonce="<nonce-value>" 
有 了 下 一 个 随机 数 ， 客 户 端 就 可 以 预先 发 布 Authorization 首部 了 。 


尽管 这 种 预 授权 机 制 避免 了 请 求 / 质询 循环 (加快 了 事务 处 理 的 速度 )， 但 实际 上 它 
也 破坏 了 对 同一 台 服务 器 的 多 条 请 求 进行 管道 化 的 功能 ， 因 为 在 发 布下 一 条 请 求 之 
前 ， 一 定 要 收 到 下 一 个 随机 值 才 行 。 而 管道 化 是 避免 延迟 的 一 项 基本 技术 ， 所 以 这 
样 可 能 会 造成 很 大 的 性 能 损失 。 














2. 受 限 的 随机 数 重用 机 制 

另 一 种 方法 不 是 预先 生成 随机 数 序 列 ， 而 是 在 有 限 的 次 数 内 重用 随机 数 。 比 如 ， 服 
务 恬 可 能 允许 将 某 个 随机 数 重 用 5 次 ， 或 者 重用 10 秒 。 

在 这 种 情况 下 ， 客 户 端 可 以 随意 发 布 带 有 Authorization 首部 的 请 求 ， 而 且 由 于 随 
机 数 是 事先 知道 的 ， 所 以 还 可 以 对 请 求 进行 管道 化 。 随 机 数 过 期 时 ， 服 务 器 要 向 客户 
端 发 送 401 Unauthorized 质询 ， 并 设置 WWW-Authenticate:stale=true 指令 : 








WWW-Authenticate: Digest 
realm="<realm-value>" 
nonce="<nonce-value>" 
stale=true 


重用 随机 数 使 得 攻击 者 更 容易 成 功 地 实行 重 放 攻击 。 虽 然 这 确实 降低 了 安全 性 ， 但 
重用 的 随机 数 的 生存 期 是 可 控 的 (从 严格 禁止 重用 到 较 长 时 间 的 重用 )， 所 以 应 该 可 
以 在 安全 和 性 能 间 找 到 平衡 。 

此 外 ， 还 可 以 通过 其 他 一 些 特性 使 重 放 攻 击 变 得 更 加 困难 ， 甚 中 就 包括 增 量 计数 器 
FH IP 地 址 测试 。 但 这 些 技术 只 能 使 攻击 的 实施 更 加 麻烦 ， 并 不 能 消除 由 此 带 来 的 安 
全 隐患 。 


3. 同步 生成 随机 数 


还 可 以 采用 时 间 同 步 的 随机 数 生成 算法 ， 客 户 端 和 服务 器 可 根据 共享 的 密 钥 ， 生 成 
第 三 方 无 法 轻易 预测 的 、 相 同 的 随机 数 序列 〈 比 如 安全 ID F). 


这 些 算 法 都 超出 了 摘要 认证 规范 的 范畴 。 
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13.2.8 ”随机 数 的 选择 
随机 数 的 内 容 不 透明 ， 而 且 与 实现 有 关 。 但 性 能 、 安 全 性 和 便捷 性 的 优 劣 都 取决 于 
明智 的 选择 。 
RFC 2617 建议 采用 这 个 假想 的 随机 数 公 式 : 
BASE64(time-stamp H(time-stamp ":" ETag ":" private-key)) 


其 中 time-stamp 是 服务 器 产生 的 时 间或 其 他 不 会 重复 的 值 ，ETag 是 与 所 请 求实 
体 有 关 的 HTTP ETag 首部 的 值 ，private-key 是 只 有 服务 器 知道 的 数据 。 


有 了 这 种 形式 的 随机 数 ， 服 务 器 就 可 以 在 收 到 客户 端的 认证 首部 之 后 重新 计算 散 列 
部 分 ， 如 果 结 果 与 那个 首部 的 随机 数 不 符 ， 或 者 时 间 戳 的 值 不 够 新 ， 就 拒绝 请 求 。 
服务 器 可 以 通过 这 种 方式 来 限制 随机 数 的 有 效 持续 时 间 。 

包含 Etag 可 以 防止 对 已 更 新 资源 版 本 的 重 放 请 求 。( 广 意 ， 在 随机 数 中 包含 客户 端 
HJ IP 地址 ， 服 务 器 好 像 就 可 以 限制 原来 获得 此 随机 数 的 客户 端 重用 这 个 随机 数 了 ， 
但 这 会 破坏 代理 集群 的 工作 。 使 用 代理 集群 时 ， 来 自 单个 用 户 的 多 条 请 求 通常 会 经 
过 不 同 的 代理 进行 传输 ， 而 且 IP 地 址 欺骗 实现 起 来 也 不 是 很 难 ,) 

实现 可 以 选择 不 接受 以 前 使 用 过 的 随机 数 或 摘要 ， 以 防止 重 放 攻击 。 实 现 也 可 以 选 
择 为 POST 或 PUT 请 求 使 用 一 次 性 的 随机 数 或 摘要 ， 为 GET 请 求 使 用 时 间 蕉 。 


会 影响 到 随机 数 选取 的 一 些 实际 安全 问题 参见 13.5 市 。 








13.2.9 ”对称 认 证 

RFC 2617 扩展 了 摘要 认证 机 制 ， 人 允许 客户 端 对 服务 器 进行 认证 。 这 是 通过 提供 客户 
端 随机 值 来 实现 的 ， 服 务 器 会 根据 它 对 共享 保密 信息 的 正确 了 解 生 成 正确 的 响应 摘 
要 。 然 后 ， 服 务 器 在 Authorization-Info 首部 中 将 此 摘要 返回 给 客户 端 。 


这 种 对 称 认证 方式 被 标准 化 为 RFC 2617。 为 了 与 原 有 RFC 2069 标准 后 向 兼容 ， 它 
是 可 选 的 ， 但 由 于 它 提供 了 一 些 重要 的 安全 提升 机 制 ， 强 烈 推 荐 现今 所 有 的 客户 端 
和 服务 器 都 要 实现 全 部 RFC 2617 特性 。 特 别 是 ， 只 要 提供 了 qop 指令 ， 就 要 求 执 
行 对 称 认证 ， 而 没有 qop 指令 时 则 不 要 求 执行 对 称 认 证 。 

响应 摘要 的 计算 方法 与 请 求 摘要 类 似 ， 但 由 于 响应 中 没有 方法 ， 而 且 报 文 实体 数据 
有 所 不 同 ， 所 以 只 有 报 文 主体 信息 A2 不 同 。 表 13-6 和 表 13-7 对 比 了 请 求 和 响应 摘 
要 中 A2 的 计算 方法 。 
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表 13-6 ”算法 中 A2 的 定义 (请 求 摘 要 ) 





qop A2 
未 定义 <request-method>:<uri-directive-value> 
auth <request-method>:<uri-directive-value> 
auth-int <request-method>:<uri-directive-value>:H(<request-entity-body>) 


表 13-7 算法 中 A2 的 定义 (响应 摘要 ) 





SoP A2 
未 定义 :«uri-directive-value» 
auth :«uri-directive-value» 
auth-int :«uri-directive-value»:H(«response-entity-body») 





cnonce 值 和 nc 值 必须 是 本 报 文 所 响应 的 客户 端 请 求 中 的 相应 值 。 如 果 指 定 了 
qop="auth" 或 qop="auth-int"， 就 必须 提供 响应 auth、cnonce FH nonce 计数 指令 。 


13.3 增强 保护 质量 


可 以 在 三 种 摘要 首部 中 提供 qop 字段 : WWW-Authenticate, Authorization 和 


Authentication-Info. 


通过 qop 字段 ， 客 户 端 和 服务 器 可 以 对 不 同类 型 及 质量 的 保护 进行 协商 。 比 如 ， 即 
便 会 严重 降低 传输 速度 ， 有 些 事 务 可 能 也 要 检查 报 文 主体 的 完整 性 。 

服务 器 首先 在 WWW-Authenticate 首部 输出 由 逐 号 分 隔 的 qop 选项 列表 。 然 后 客 
户 端 从 中 选择 一 个 它 支 持 且 满足 其 需求 的 选项 ， 并 将 其 放 在 Authorization 的 
qop 字段 中 回 送 给 服务 器 。 











qop 字段 是 可 选 的 ， 但 只 是 在 后 向 兼容 原 有 RFC 2069 规范 的 情况 下 才 是 可 选 的 。 
现代 所 有 的 摘要 实现 都 应 该 支持 qop 选项 。 


RFC 2617 定义 了 两 种 保护 质量 的 初始 值 : 表示 认证 的 auth， 带 有 报 文 完 整 性 保护 
的 认证 auth-int。 将 来 可 能 还 会 出 现 其 他 qop 选项 。 


13.3.1 报 文 完整 性 保护 

如 果 使 用 了 完整 性 保护 (qop="auth-int"), H (实体 的 主体 部 分 ) 就 是 对 实体 主 
体 部 分 ， 而 不 是 报 文 主体 部 分 的 散 列 。 对 于 发 送 者 ， 要 在 应 用 任意 传输 编码 方式 之 
前 计算 ， 而 对 于 接收 者 ， 则 应 在 去 除 所 有 传输 编码 之 后 计算 。 注 意 ， 对 于 任何 含有 
多 部 份 的 内 容 类 型 来 说 ， 多 部 分 的 边界 和 每 部 分 中 岁入 的 首部 都 要 包含 在 内 。 
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13.3.2. ”摘要 认证 首部 

基本 认证 和 摘要 认证 协议 都 包含 了 www-Authenticate 首部 承载 的 授权 质询 、 
Authorization 首部 承载 的 授权 响应 。 摘 要 认证 还 添加 了 可 选 的 Authorization- 
Info 首部 ， 这 个 首部 是 在 成 功 认证 之 后 发 送 的 ， 用 于 实现 三 步 握手 机 制 ， 并 传送 下 
一 个 随机 数 。 表 13-8 给 出 了 基本 认证 和 摘要 认证 的 首部 。 


表 13-8 HTTP 认 证 首部 








阶段 基 本 摘 要 
质询 WWW-Authenticate: Basic WWW-Authenticate: Digest 
realm="<realm-value>" realm="<realm-value>" 


nonce="<nonce-value>" 
domain-"«list-of-URIs»"] 
opaque-"«opaque-token-value»"] 
stale-«true-or-false»] 
algorithm-«digest-algorithm»] 
qop2"«list-of-gop-values»"] 


[ 
[ 
[ 
[ 
[ 
[ 


«extension-directive»] 


响应 Authorization: Basic Authorization: Digest 
<base64 (user:pass)> username="<username>" 
realm="<realm-value>" 
nonce="<nonce-value>" 
uri=<request-uri> 
response="<32-hex-digit-digest>" 
algorithm-«digest-algorithm»] 
opaque-"«opaque-token-value»"] 
cnonce-"«nonce-value»"] 
qop-«qop-value»] 
nc-«8-hex-digit-nonce-count»] 
«extension-directive»] 
Info n/a Authentication-Info: 
nextnonces"«nonce-value»" 
qop2"«list-of-gop-values»"] 
rspauth-"«hex-digest»"] 


cnonce-"«nonce-value»"] 





nc-«8-hex-digit-nonce-count»] 


摘要 认证 首部 要 复杂 得 多 。 详 细 介绍 参见 附录 F. 


13.4 应 该 考虑 的 实际 问题 
使 用 摘要 认证 时 需要 考虑 几 件 事情 。 本 节 讨 论 了 其 中 一 些 问题 。 
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13.4.1 多 重 质询 

服务 器 可 以 对 某 个 资源 发 起 多 重 质询 。 比 如 ， 如 果 服 务 器 不 了 解 客户 端的 能 力 ， 就 
可 以 既 提 供 基 本 认证 质询 ， 又 提供 摘要 认证 质询 。 客 户 端 面 对 多 重 质询 时 ， 必 须 以 
它 所 支持 的 最 强 的 质询 机 制 来 应 答 。 


质询 自身 可 能 会 包含 由 有 逗号 分 隔 的 认证 参数 列表 。 如 果 Www-Authenticate 或 
Proxy-Authenticate 首部 包含 了 多 个 质询 ， 或 者 提供 了 多 个 WWW-Authenticate 
首部 ， 用 户 Agent 代理 在 解析 wWW-Authenticate X Proxy-Authenticate 首部 
字段 值 时 就 要 特别 小 心 。 注 意 ， 很 多 训 览 器 只 支持 基本 认证 ， 要 求 这 是 提交 给 它 的 
第 一 种 认证 机 制 。 

在 提供 了 认证 选项 范围 的 情况 下 ， 安 全 问题 上 就 会 存在 明显 的 “最 薄弱 环节 "。 只 有 
当 基 本 认证 是 最 低 可 接受 认证 方式 时 ， 服 务 器 才 应 该 包含 它 ， 而 且 管 理 员 还 应 该 警 
告 用 户 ， 即 使 运行 了 不 同 层次 安全 措施 ， 系 统 间 使 用 相同 密码 也 存在 一 定 危 险 性 。 











13.4.2 ”差错 处 理 
在 摘要 认证 中 ， 如 果 某 个 指令 或 其 值 使 用 不 当 ， 或 者 缺少 某 个 必要 指令 ， 就 应 该 使 
用 响应 400 Bad Request, 








如 果 请 求 的 摘要 不 匹配 ， 就 应 该 记录 一 次 登录 失败 。 基 客户 端 连续 多 次 失败 可 能 说 
明 有 攻击 者 正在 猜测 密码 。 


认证 服务 器 一 定 要 确保 URI 指令 指定 的 资源 与 请 求 行 中 指定 的 资源 相同 。 如 果 不 
同 ， 服 务 器 就 应 该 返回 400 Bad Request 错误 。( 这 可 能 是 一 种 攻击 的 迹象 ， 因 此 服 
务 器 设计 者 可 能 会 考虑 将 此 类 错误 记录 下 来 。) 这 个 字段 包含 的 内 容 与 请 求 URL 中 
的 内 容 是 重复 的 ， 用 来 应 对 中 间 代理 可 能 对 客户 端 请 求 进行 的 修改 。 这 个 经 过 修改 
(但 估计 语义 是 等 价 的 ) 的 请 求 计算 后 得 到 的 摘要 可 能 会 与 客户 端 计算 出 的 摘要 有 所 
不 同 。 





13.4.3 ”保护 空间 
域 值 ， 与 被 访问 服务 器 的 标准 根 URL 结合 在 一 起 ， 定 义 了 保护 空间 。 


通过 域 可 以 将 服务 器 上 的 受 保护 资源 划分 为 一 组 保护 空间 ， 每 个 空间 都 有 自己 的 认 
证 机 制 和 /或 授权 数据 库 。 域 值 是 一 个 字符 串 ， 通 常 由 原始 服务 器 分 配 ， 可 能 会 有 
认证 方案 特有 的 附加 语义 。 注 意 ， 可 能 会 有 多 个 授权 方案 相同 ， 而 域 不 同 的 质询 。 


保护 空间 确定 了 可 以 自动 应 用 证 书 的 区 域 。 如 果 前 面 的 某 条 请 求 已 被 授权 ， 在 一 段 
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时 间 内 ， 该 保护 空间 中 所 有 其 他 请 求 都 可 以 重用 同一 个 证 书 ， 时 间 的 长 短 由 认证 方 
案 、 参 数 和 /或 用 户 喜 好 来 决定 。 除 非 认 证 方案 进行 了 其 他 定义 ， 否 则 单个 保护 空 
间 是 不 能 扩展 到 其 服务 器 范围 之 外 的 。 

对 保护 空间 的 具体 计算 取决 于 认证 机 制 。 

。 在 基本 认证 中 ， 客 户 端 会 假定 请 求 URI 中 或 其 下 的 所 有 路 径 都 与 当前 的 质询 处 
于 同一 个 保护 空间 内 。 客 户 端 可 以 预先 提交 对 此 空间 中 资源 的 认证 ， 无 需 等 待 来 
自 服务 器 的 男 一 条 质询 。 

° 在 摘要 认证 中 ， 质 询 的 www-Authenticate:domain 字段 对 保护 空间 作 了 更 精 
确 的 定义 。domain 字段 是 一 个 用 引号 括 起 来 的 、 中 间 由 空格 分 隔 的 URI 列表 。 

通常 认为 ，aomain 列表 中 的 所 有 URI 和 逻辑 上 处 于 这 些 前 绥 之 下 的 所 有 URI, 

都 位 于 同一 个 保护 空间 中 。 如 果 没 有 domain 字段 ， 或 者 此 字段 为 空 ， 质 询 服 务 

器 上 的 所 有 URI 就 都 在 保护 空间 内 。 


























13.4.4 重 写 URI 

代理 可 以 通过 改变 URI 语 法 ， 而 不 改变 所 描述 的 实际 资源 的 方式 来 重 写 URI, 

比如 : 

° 可 以 对 主机 名 进行 标准 化 ， 或 用 IP 地 址 来 取代 ， 

° 可 以 用 “%” 转 义 形式 来 取代 租 入 的 字符 ， 

° 如 果 某 类 型 的 一 些 附 加 属性 不 会 影响 从 特定 原始 服务 器 上 获取 资源 ， 就 可 以 将 其 
附加 或 插入 到 URI rh, 


代理 可 修改 URI， 而 且 摘 要 认证 会 检查 URI 值 的 完整 性 ， 所 以 如 果 进 行 了 任意 一 种 
修改 ， 搞 要 认证 就 会 被 破坏 。 更 多 信息 参见 13.2.4 市 。 








13.4.5 缓存 

共享 的 缓存 收 到 包含 Authorization 首部 的 请 求 和 转 接 那 条 请 求 产 生 的 响应 时 ， 
除非 啊 应 中 提供 了 下 列 两 种 Cache-Control 指令 之 一 ， 否 则 一 定 不 能 将 那 条 响应 
作为 对 任何 其 他 请 求 的 应 答 使 用 。 


° 如 果 原 始 响 应 中 包含 有 Cache-Control 指令 must-revalidate, 缓存 可 以 在 
应 答 后 继 请 求 时 使 用 那 条 响应 的 实体 部 分 。 但 它 首 先 要 用 新 请 求 的 请 求 首部 ， 与 
原始 服务 器 再 次 进行 验证 ， 这 样 原始 服务 器 就 可 以 对 新 请 求 进行 认证 了 。 

° 如 果 原 始 响应 中 包含 有 Cache-Control 指令 public， 在 对 任意 后 继 请 求 的 应 
答 中 都 可 以 返回 响应 的 实体 部 分 。 
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13.5 ”安全 性 考虑 


RFC 2617 总 结 了 HTTP 认证 方案 固有 的 一 些 安全 风险 ， 这 是 很 邻 人 钦佩 的 。 本 节 描 
述 了 其 中 的 部 分 风险 。 


13.5.1 首部 算 改 

为 了 提供 一 个 简单 明了 的 防 首部 自 改 系统 ， 要 么 就 得 进行 端 到 端的 加 密 ， 要 么 就 得 
对 首部 进行 数字 签名 最 好 是 两 者 的 结合 ! 摘要 认证 的 重点 在 于 提供 一 种 防 算 改 
认证 机 制 ， 但 并 不 一 定 要 将 这 种 保护 扩展 到 数据 上 去 。 上 有 具有 一 定 保护 级 别 的 首部 只 


有 WWW-Authenticate fll Authorization, 








13.5.2” 重 放 攻 击 

在 当前 的 上 下 文中 ， 重 放 攻 击 指 的 就 是 有 人 将 从 某 个 事务 中 窃取 的 认证 证 书 用 于 另 
一 个 事务 。 尽 管 对 GET 请 求 来 说 这 也 是 个 问题 ， 但 为 POST 和 了 PUT 请求 提 供 一 种 
简单 的 方式 来 避免 重 放 攻 击 才 是 非常 必要 的 。 在 传输 表单 数据 的 同时 ， 成 功 重 放 原 
先 用 过 的 证 书 会 引发 严重 的 安全 问题 。 


因此 ， 为 了 使 服务 器 能 够 接受 “ 重 放 的 ”证 书 ， 还 必须 重复 发 送 随机 数 。 缓 解 这 个 
问题 的 方法 之 一 就 是 让 服务 器 产生 的 随机 数 包含 (如 前 所 述 ) 根据 客户 端 IP 地 址 、 
时 间 惟 、 资 产 Etag 和 私有 服务 器 密 钥 算出 的 摘要 。 这 样 ，IP 地 址 和 一 个 短小 超时 值 
的 组 合 就 会 给 攻击 者 造成 很 大 的 障碍 。 


但 这 种 解决 方案 有 一 个 很 重要 的 缺陷 。 我 们 之 前 讨论 过 ， 用 客户 端 IP 地 址 来 创建 随 
机 数 会 破坏 经 过 代理 集群 的 传输 。 在 这 类 传输 中 。 来 自 单个 用 户 的 多 条 请 求 可 能 会 
穿 过 不 同 的 代理 。 而 且 ，IP 欺骗 也 并 不 难 实现 。 

一 种 可 以 完全 避免 重 放 攻 击 的 方法 就 是 为 每 个 事务 都 使 用 一 个 唯一 的 随机 数 。 在 这 
种 实现 方式 中 ， 服 务 器 会 为 每 个 事务 发 布 唯一 的 随机 数 和 一 个 超时 值 。 发 布 的 随机 
数 只 对 指定 的 事务 有 效 ， 而 且 只 在 超时 值 的 持续 区 间 内 有 效 。 这 种 方式 会 增加 服务 
器 的 负担 ， 但 这 种 负担 可 忽略 不 计 。 


13.5.3 多重 认证 机 制 


服务 器 支持 多 重 认证 机 制 《比如 基本 认证 和 摘要 认证 ) 时 ， 通 常会 在 WWW-Authenticate 
首部 提供 选项 。 由 于 没有 要 求 客 户 端 选择 功能 最 强 的 认证 机 制 ， 所 以 得 到 的 认证 效 
果 就 和 功能 最 弱 的 认证 方案 差不多 。 


要 避免 出 现 这 个 问题 ， 最 直接 的 方法 就 是 让 客户 端 总 是 去 选择 可 用 认证 方案 中 功能 
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最 强 的 那个 。 如 果 无 法 实现 (因为 大 部 分 人 使 用 的 都 是 商业 化 客户 端 )， 唯 一 的 选择 
就 是 使 用 一 个 只 维护 最 强 认证 方案 的 代理 服务 器 。 但 只 有 在 已 知 所 有 客户 端 都 支持 
所 选 认 证 方案 的 区 域 中 才能 采用 这 种 方式 一 一 比如 ， 在 公司 网 络 中 。 


13.5.4 词典 攻击 
词典 攻击 是 典型 的 密码 猜测 型 攻击 方式 。 恶 意 用 户 对 某 个 事务 进行 窃听 ， 并 对 随机 
数 /响应 对 使 用 标准 的 密码 猜测 程序 。 如 果 用 户 使 用 的 是 相对 比较 简单 的 密码 ， 而 
且 服 务 器 使 用 的 也 是 简单 的 随机 数 ， 它 很 可 能 会 找到 匹配 项 。 如 果 没 有 密码 过 期 策 
上 略 ， 只 要 有 足够 的 时 间 和 破解 密码 所 需 的 一 次 性 费用 ， 就 很 容易 搜集 到 足够 多 的 窗 
码 ， 造 成 实质 性 的 破坏 。 


除了 使 用 复杂 的 相对 难以 破译 的 密码 和 合适 的 密码 过 期 策略 之 外 ， 确 实 没 有 什么 好 
的 方法 可 以 解决 这 个 问题 。 


13.5.5 ”恶意 代理 攻击 和 中 间 人 攻击 

现在 很 多 因特网 流量 都 会 在 这 个 或 那个 地 方 流 经 某 个 代理 。 随 着 重 定 向 技术 和 拦截 
代理 的 出 现 ， 用 户 甚至 都 意识 不 到 他 的 请 求 穿 过 了 某 个 代理 。 如 果 这 些 代理 中 有 一 
个 是 恶意 的 或 者 容易 被 入侵 的 ， 就 会 使 客户 端 置 于 中 间 人 攻击 之 下 。 

这 种 攻击 可 以 采用 窃听 的 形式 ， 也 可 以 删除 提供 的 所 有 选项 ， 用 最 薄弱 的 认证 策略 
(比如 基本 认证 ) 来 取代 现 有 的 认证 机 制 ， 对 其 进行 修改 。 


入 侵 受 信 代 理 的 方式 之 一 就 是 使 用 其 扩展 接口 。 有 时 代理 会 提供 复杂 的 编程 接口 ， 
可 以 为 这 类 代理 编写 一 个 扩展 (比如 ，plug-in) 来 拦截 流量 并 对 其 进行 修改 。 不 过 ， 
数据 中 心 和 代理 自身 提供 的 安全 性 使 得 通过 恶意 plug-in 进行 中 间 人 攻击 的 可 能 性 变 
得 很 渺茫 。 

没有 什么 好 办 法 可 以 解决 这 个 问题 。 可 行 的 解决 方案 包括 由 客户 端 提供 与 认证 功能 
有 关 的 可 见 线索 ， 对 客户 端 进行 配置 使 其 总 是 使 用 可 用 认证 策略 中 功能 最 强 的 那 一 
种 ， 等 等 。 但 即使 使 用 的 是 最 强大 的 认证 策略 ， 客 户 端 仍然 很 容易 被 窃听 。 防 止 这 
些 攻击 唯一 简便 的 方式 就 是 使 用 SSL, 


13.5.6 ”选择 明文 攻击 

使 用 摘要 认证 的 客户 端 会 用 服务 器 提供 的 随机 数 来 生成 响应 。 但 如 果 中 间 有 一 个 被 
入 侵 的 或 恶意 的 代理 在 拦截 流量 (或 者 有 个 恶意 的 原始 服务 器 ) ， 就 可 以 很 容易 地 为 
客户 端的 响应 计算 提供 随机 数 。 使 用 已 知 密 钥 来 计算 响应 可 以 简化 响应 的 密码 分 析 
过 程 。 这 种 方式 被 称 为 选择 明文 攻击 (chosen plaintext attack) 。 选 择 明 文 攻击 有 以 
下 几 种 变 体形 式 。 
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。 预先 计算 的 词典 攻击 
这 是 词典 攻击 和 选择 明文 攻击 的 组 合 。 首 先 ， 发 起 攻击 的 服务 器 会 用 预先 确定 的 
随机 数 和 常见 密码 的 变化 形式 产生 一 组 响应 ， 创 建 一 个 词典 。 一 旦 有 了 规模 可 观 
的 词典 ， 攻 击 服务 器 或 代理 就 可 以 完成 对 流量 的 封锁 ， 向 客户 端 发 送 预 先 确定 的 
随机 数 。 攻 击 者 从 客户 端 得 到 一 个 响应 时 ， 会 搜索 生成 的 词典 ,寻找 匹配 项 。 如 
果 有 匹配 项 ， 攻 击 者 就 捕获 了 这 个 用 户 的 密码 。 
° 批量 暴力 型 攻击 
批量 暴力 型 攻击 的 不 同 之 处 在 于 计算 密码 的 方式 。 它 没有 试图 去 匹配 预先 计算 出 
来 的 摘要 ， 而 是 用 一 组 机 器 枚 举 了 指定 空间 内 所 有 可 能 的 密码 。 随 着 机 器 运行 速 
度 变 得 越 来 越 快 ， 暴 力 型 攻击 的 可 行 性 也 变 得 越 来 越 强 了 。 
总 之 ， 这 些 攻击 所 造成 的 威胁 是 很 容易 应 对 的 。 防 止 这 些 攻击 的 一 种 方法 就 是 配置 
客户 端 使 用 可 选 的 enonce 指令 ， 这 样 响应 就 是 基于 客户 端的 判断 产生 的 ， 而 不 是 
用 服务 器 提供 的 随机 数 (这 个 随机 数 可 能 会 被 攻击 者 入 侵 ) 产生 的 。 通 过 这 种 方法 ， 
再 结合 一 些 强制 使 用 合理 强 密码 的 策略 ， 以 及 一 个 好 的 密码 过 期 策略 ， 就 可 以 完全 
消除 选择 明文 攻击 的 威胁 。 


13.5.7. ”存储 密码 

摘要 认证 机 制 将 对 比 用 户 的 响应 与 服务 器 内 部 存储 的 内 容 一 一 通常 就 是 用 户 名 和 
H(A1) 元 组 对 ， 其 中 H(A1) 是 从 用 户 名 、 域 和 密码 的 摘要 中 导出 的 。 

与 Unix 机 器 中 传统 的 密码 文件 不 同 ， 如 果 摘 要 认证 密码 文件 被 入侵 了 ， 攻 击 者 马上 
就 能 够 使 用 域 中 所 有 文件 ， 不 需要 再 进行 解码 了 。 

消除 这 个 问题 的 方法 包括 : 

。 就 像 密码 文件 中 包含 的 是 明文 密码 一 样 来 保护 它 ， 

° 确保 域名 在 所 有 域 中 是 唯一 的 。 这 样 ， 如 果 密 码 文件 被 入 侵 ， 所 造成 的 破坏 也 只 
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局 限于 一 个 特定 的 域 中 。 包 含 主 机 和 domain 的 全 路 径 域名 就 可 以 满足 这 个 要 求 。 
尽管 摘要 认证 提供 的 解决 方案 比 基 本 认证 要 强壮 且 安 全 得 多 ,但 它 并 没有 为 内 容 的 安 
全 提供 任何 保证 一 一 真正 安全 的 事务 只 有 通过 SSL 才能 实现 ， 我 们 将 在 下 一 章 介绍 。 


13.6 更 多 信息 


更 多 有 关 认 证 的 信息 ， 参 见 以 下 资源 。 
* http://www.ietf.org/rfc/rfc2617.txt 























RFC 2617, “HTTP Authentication: Basic and Digest Access Authentication.” 
(“HTTP 认证 : 基本 和 摘要 访问 认证 ”) 。 
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前 面 三 章 讨论 了 一 些 有 助 于 识别 和 认证 用 户 的 HTTP 特性 。 在 友好 环境 中 ， 这 些 技 
术 都 能 够 很 好 地 工作 ， 但 在 充满 各 种 利益 驱动 和 恶意 对 手 的 环境 中 ， 它 们 并 不 足以 
保护 那些 重要 的 事务 处 理 。 


本 章 提供 了 一 种 更 复杂 ， 更 安全 的 技术 ， 通 过 数字 密码 来 保护 HTTP 事务 免 受 窃听 
TAA BH) E 


14.4 保护 HTTP 的 安全 


人 们 会 用 Web 事务 来 处 理 一 些 很 重要 的 事情 。 如 果 没 有 强 有 力 的 安全 保证 ， 人 们 就 
无 法 安心 地 进行 网 络 购物 或 使 用 银行 业务 。 如 有 果 无 法 严格 限制 访问 权限 ， 公 司 就 不 
能 将 重要 的 文档 放 在 Web 服务 器 上 。Web 需要 一 种 安全 的 HTTP 形式 。 


前 面 的 章节 讨论 了 一 些 提 供认 证 (基本 认证 和 摘要 认证 ) 和 报 文 完 整 性 检查 (摘要 
qop="auth-int") 的 轻 量 级 方法 。 对 很 多 网 络 事务 来 说 ， 这 些 方 法 都 是 很 好 用 的 ， 
但 对 大 规模 的 购物 、 银 行事 务 ， 或 者 对 访问 机 密 数 据 来 说 ， 并 不 足够 强大 。 这 些 更 
为 重要 的 事务 需要 将 HTTP 和 数字 加 密 技术 结合 起 来 使 用 ， 才 能 确保 安全 。 


HTTP 的 安全 版 本 要 高 效 、 可 移植 且 易 于 管理 ， 不 但 能 够 适应 不 断 变化 的 情况 而 且 还 应 
该 能 满足 社会 和 政府 的 各 项 要 求 。 我 们 需要 一 种 能 够 提供 下 列 功能 的 HTTP 安全 技术 。 


° 服务 器 认证 (客户 端 知道 它们 是 在 与 真正 的 而 不 是 伪造 的 服务 器 通话 )。 
客户 端 认 证 (服务 器 知道 它们 是 在 与 真正 的 而 不 是 伪造 的 客户 端 通话 )。 
。 完整 性 (客户 端 和 服务 器 的 数据 不 会 被 修改 )。 

° WE (客户 端 和 服务 器 的 对 话 是 私密 的 ， 无 需 担 心 被 窃听 )。 

。 效率 (一 个 运行 的 足够 快 的 算法 ， 以 便 低 端 的 客户 端 和 服务 器 使 用 )。 
° 普 适 性 (基本 上 所 有 的 客户 端 和 服务 器 都 支持 这 些 协议 )。 

管理 的 可 扩展 性 (在 任何 地 方 的 任何 人 都 可 以 立即 进行 安全 通信 )。 
适应 性 (能够 支持 当前 最 知名 的 安全 方法 )。 

° 在 社会 上 的 可 行 性 (满足 社会 的 政治 文化 需要 )。 














HTTPS 

HTTPS 是 最 流行 的 HTTP 安全 形式 。 它 是 由 网 景 公司 首创 的 ， 所 有 主要 的 浏览 器 和 
服务 器 都 支持 此 协议 。 

HTTPS 方案 的 URL 以 https://， 而 不 是 http:/ 开头 ， 据 此 就 可 以 分 辨 菜 个 Web 页 面 
是 通过 HTTPS 而 不 是 HTTP 访问 的 (有些 浏 览 器 还 会 显示 一 些 标志 性 的 安全 提示 ， 
如 图 14-1 所 示 )。 
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E] Welcome To Joe's Hardware Store - Microsoft Internet Explorer 
File Edit View Favorites Tools Help 
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https Jy 2€ e= C )ww.joes-hardware.com Y| PGo | Links Ed 


,  J Welcome to 
€* Joe's Hardware 
I Store 


(www.joes-hardware.com) 























Joe's Hardware is a hypothetical online hardware store. 


The website is a live test case for the O'Reilly and 
Associates reference book "HTTP: The Definitive Guide". 











安全 图 标 











14-1 浏览 安全 Web 站 点 


使 用 HTTPS 时 ， 所 有 的 HTTP 请 求 和 响应 数据 在 发 送 到 网 络 之 前 ， 都 要 进行 加 密 。 
HTTPS 在 HTTP 下 面 提供 了 一 个 传输 级 的 密码 安全 层 (参见 图 14-2) 可 以 使 用 
SSL， 也 可 以 使 用 其 后 继 者 一 一 传输 层 安 全 (Transport Layer Security, TLS), HF 
SSL FU TLS 非常 类 似 ， 所 以 在 本 书 中 我 们 不 太 严 格 地 用 术语 SSL 来 表示 SSL 和 TLS. 























HTTP 应 用 层 
HTTP 应 用 层 SSLorTLS ZAE 
l 一 一 一 
TER 传输 层 TER 传输 层 
正 网 络 层 u 网 络 层 
网 络 接口 数据 链 路 层 网 络 接口 数据 链 路 层 
(a) HTTP (b) HTTPS 











14-2 HTTPS 是 位 于 安全 层 之 上 的 HTTP， 这 个 安全 层 位 于 TCP 之 上 
大 部 分 困难 的 编码 及 解码 工作 都 是 在 SSL 库 中 完成 的 ， 所 以 Web 客户 端 和 服务 器 














在 使 用 安全 HTTP 时 无 需 过 多 地 修改 其 协议 处 理 逻 辑 。 在 大 多 数 情况 下 ， 只 需要 用 |308 
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SSL 的 输入 /输出 调用 取代 TCP 的 调用 ， 再 增加 其 他 几 个 调用 来 配置 和 管理 安全 信 
息 就 行 了 。 

14.2 REWE 

在 详细 探讨 HTTPS 之 前 ， 我 们 先 介绍 一 些 SSL 和 HTTPS 用 到 的 加 密 编码 技术 的 背 


景 知识 。 在 接 下 来 的 几 节 里 ， 我 们 会 对 数字 加 密 的 本 质 进 行 一 个 快速 的 入 门 性 介绍 。 
如 果 你 已 经 掌握 了 数字 加 密 的 技术 和 术语 ， 可 以 直接 阅读 14.7 市 。 


在 这 个 数字 加 密 技术 的 入 门 介绍 中 ， 我 们 会 讨论 以 下 内 容 。 











。 密码 


对 文本 进行 编码 ， 使 偷 颖 者 无 法 识别 的 算法 。 
。 da 

改变 密码 行为 的 数字 化 参数 。 

。 对 称 密 钥 加 密 系 统 

编 / 解码 使 用 相同 密 钥 的 算法 。 

。 不 对 称 密 钥 加 密 系 统 

编 / 解码 使 用 不 同 密 钥 的 算法 。 

。 公开 密 钥 加 密 系 统 

一 种 能 够 使 数 百 万 计算 机 便捷 地 发 送 机 密 报 文 的 系统 。 
。 数字 签名 

用 来 验证 报 文 未 被 伪造 或 自 改 的 校 验 和 。 





。 数字 证 书 
由 一 个 可 信 的 组 织 验证 和 签发 的 识别 信息 。 


14.2.1 密码 编制 的 机 制 与 技巧 

密码 学 是 对 报 文 进行 编 / 解码 的 机 制 与 技巧 。 人 们 用 加 密 的 方式 来 发 送 秘密 信息 已 
经 有 数 千年 了 。 但 密码 学 所 能 做 的 还 不 仅仅 是 加 密 报 文 以 防止 好 事 者 的 读 取 ， 我 们 
还 可 以 用 它 来 防止 对 报 文 的 纂 改 ， 甚 至 还 可 以 用 密码 学 来 证 明 某 条 报 文 或 某 个 事务 
确实 出 自 你 手 ， 就 像 支票 上 的 手写 签名 或 信封 上 的 压 纹 封 蜡 一 样 。 
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14.2.2 ”密码 

密码 学 基于 一 种 名 为 密码 (cipher) 的 秘密 代码 。 密 码 是 一 套 编 码 方案 一 一 一 种 特 
殊 的 报 文 编码 方式 和 一 种 稍 后 使 用 的 相应 解码 方式 的 结合 体 。 加 密 之 前 的 原始 报 
文通 常 被 称 为 明文 (plaintext 或 cleartext)。 使 用 了 密码 之 后 的 编码 报 文通 常 被 称 作 
SF x (ciphertext), K| 14-3 显示 了 一 个 简单 的 例子 。 























明文 a 明文 




















Meet me at the í A Phhw ph dw wkh Meet me at the 
pier at midnight slhu dw plggljkw pier at midnight 
编码 器 解码 器 











14-3 ”明文 和 密 文 


用 密码 来 生成 保密 信息 已 经 有 数 千 年 了 。 传 说 尤 利 乌 斯 。 凯 撒 (Julius Caesar) 曾 
使 用 过 一 种 三 字符 循环 移 位 密码 ， 报 文中 的 每 个 字符 都 由 字母 表 中 三 个 位 置 之 后 的 
字符 来 取代 。 在 现代 的 字母 表 中 ,“A” 就 应 该 由 “D” 来 取代 ,，“B” 就 应 该 由 “BE” 
来 取代 ， 以 此 类 推 。 

比如 ， 在 图 14-4 中 ， 用 rot3 (循环 移 位 3 字符 ) 密码 就 可 以 将 报 文 “meet me at the 
pier at midnight” 编 码 为 密 文 “phhw ph dw wkh slhu dw plgqljkw”。 :通过 解码 ， 在 
字母 表 中 循环 移 位 3 个 字符 ， 就 可 以 将 密 文 解密 回 原来 的 明文 报 文 。 

















密码 ABCDEFGHIJKLMNOPORSTUVMWXYZ 


明文 MEET ME AT THE AT PIER AT MIDNIGHT 
密 文 PHHW PH DW WKH DW SLHU DW PLGOLJKW 











图 14-4 循环 移 位 3 字符 密码 实例 





注 1: 为 了 简化 这 个 例子 ， 我 们 没有 对 标点 和 空格 进行 循环 移 位 ， 但 你 可 以 自己 试 一 试 。 
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14.2.3 ”密码 机 

最 初 ， 人 们 需要 自己 进行 编码 和 解码 ， 所 以 起 初 密码 是 相当 简单 的 算法 。 因 为 密码 
很 简单 ， 所 以 人 们 通过 纸 笔 和 密码 书 就 可 以 进行 编 解 码 了 ， 但 聪明 人 也 可 以 相当 容 
易 地 “破解 ”这 些 密码 。 

随 着 技术 的 进步 ， 人 们 开始 制造 一 些 机 器 ， 这 些 机 器 可 以 用 复杂 得 多 的 密码 来 快速 、 
精确 地 对 报 文 进 行 编 解 码 。 这 些 密码 机 不 仅 能 做 一 些 简单 的 旋转 ， 它 们 还 可 以 替换 
字符 、 改 变 字符 顺序 ， 将 报 文 切片 切 块 ， 使 代码 的 破解 更 加 困难 。” 




















14.2.4 ”使 用 了 密 钥 的 密码 

编码 算法 和 编码 机 都 可 能 会 落 入 敌人 的 手中 ， 所 以 大 部 分 机 器 上 都 有 一 些 号 盘 ， 可 
以 将 其 设置 为 大 量 不同 的 值 以 改变 密码 的 工作 方式 。 即 使 机 器 被 资 ， 没 有 正确 的 号 
盘 设置 ( 密 钥 值 ) ， 解 码 器 也 无 法 工作 。” 


这 些 密码 参数 被 称 为 密 钥 (key)。 要 在 密码 机 中 输入 正确 的 密 钥 ， 解 密 过 程 才能 正 
确 进 行 。 密 码 密 钥 会 让 一 个 密码 机 看 起 来 好 像 是 多 个 虚拟 密码 机 一 样 ， 每 个 密码 机 


都 有 不 同 的 密 钥 值 ， 因 此 其 行为 都 会 有 所 不 同 。 


图 14-5 显示 了 使 用 密 钥 的 密码 实例 。 加 密 算 法 就 是 普通 的 “人 循环 移 位 N 字符 ” 密 
Hj. N 的 值 由 密 钥 控制 。 将 同一 条 输入 报 文 “meet me at the pier at midnight” 通 过 
同一 台 编 码 机 进行 传输 ， 会 随 密 钥 值 的 不 同 产生 不 同 的 输出 。 现 在 ， 基 本 上 所 有 的 
加 密 算法 都 会 使 用 密 铀 。 























14.2.5 “数字 密码 

随 着 数字 计算 的 出 现 ， 出 现 了 以 下 两 个 主要 的 进展 。 

° 从 机 械 设备 的 速度 和 功能 限制 中 解放 出 来 ， 使 复杂 的 编 / 解码 算法 成 为 可 能 。 

° 支持 超大 密 钥 成 为 可 能 ， 这 样 就 可 以 从 一 个 加 密 算 法 中 产生 出 数 万 亿 的 虚拟 加 密 
算法 ， 由 不 同 的 密 钥 值 来 区 分 不 同 的 算法 。 密 钥 越 长 ， 编 码 组 合 就 越 多 ， 通 过 随 
机 猜测 密 钥 来 破解 代码 就 越 困 难 。 











注 2: 最 著名 的 机 械 编码 机 可 能 就 是 第 二 次 世界 大 战 期 间 德国 的 Enigma 编码 机 了 。 尽 管 Enigma 密码 非常 
复杂 ， 但 阿兰 :图 灵 (Alan Turing) 和 他 的 同事 们 在 20 世纪 40 年 代 初 期 就 可 以 用 最 早 的 数字 计算 机 
破解 Enigma 代码 了 。 

注 3: 在 现实 中 ， 机 器 逻辑 可 能 会 指向 一 些 可 利用 的 模式 ， 所 以 拥有 机 器 逻辑 有 时 会 有 助 于 密码 的 破解 。 现 
代 的 加 密 算法 通常 都 设计 为 ， 即 使 大 家 都 知道 这 些 算 法 ， 亚 意 的 攻击 者 也 很 难 发 现任 何 有 助 于 破解 代 
码 的 模式 。 实 际 上 ， 很 多 功能 最 强大 的 密码 都 会 将 其 源 代码 放 在 公共 域 中 ， 供 大 家 浏览 和 学 习 1 











° 
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(a) 明文 
Meet me at the 
pier at midnight 
T ax 
A nffu nf bu uif 


人 f E » qjfs bu njeojhiu 


循环 移 位 (n) 编 码 器 

















(b) 明文 


Meet me at the 
pier at midnight 









































密 文 
“Z 一 一 Ñ - 
密 钥 =2 í . | oggv og cv vjg 
fs «| 9 " |rkgt cv okfpkijv 
循环 移 位 (n) 编 码 器 
(c) 明文 
Meet me at the 
pier at midnight 
, ar 
一 一 > 
密 钥 =3 í à | phhw ph dw wkh 
CE P| shu dw plgqlijkw 
循环 移 位 (n) 编 码 器 











图 14-5 ”使 用 不 同 密 钥 的 旋转 字符 密码 


与 金属 钥匙 或 机 械 设 备 中 的 号 盘 设 置 相 比 ， 数 字 密 钥 只 是 一 些 数字 。 这 些 数字 密 钥 
值 是 编 / 解码 算法 的 输入 。 编 码 算法 就 是 一 些 函 数 ， 这 些 函 数 会 读 取 一 块 数据 ， 并 
根据 算法 和 密 钥 值 对 其 进行 编 / 解码 。 


给 定 一 段 明 文 报 文 P、 一 个 编码 函数 E 和 一 个 数字 编码 密 钥 e， 就 可 以 生成 一 段 经 
过 编码 的 密 文 C (参见 图 14-6) 。 通 过 解码 函数 D 和 解码 密 钥 d4， 可 以 将 密 文 C 解 
码 为 原始 的 明文 P。 当 然 ， 编 / 解码 国 数 都 是 互 为 反 国 数 的 ， 对 了 的 编码 进行 解码 
就 会 回 到 原始 报 文 P 上 去 。 
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明文 P 
C=E(P £ 一 | 
= E(P.e) pin oO ( PXC 
编码 器 EE 
图 14-6 用 编码 密 钥 e 对 明文 进行 编码 ， 用 解码 密 钥 d 进行 解码 
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14.3 ”对 称 密 钥 加 密 技 术 


我 们 来 更 详细 地 看 看 密 钥 和 密码 是 怎样 配合 工作 的 。 很 多 数字 加 密 算法 都 被 称 为 对 
称 密 钥 (symmetric-key) 加 密 技术 ， 这 是 因为 它们 在 编码 时 使 用 的 密 钥 值 和 解码 时 
一 样 (e=d) 。 我 们 就 将 其 统称 为 密 钥 k. 


在 对 称 密 钥 加 密 技术 中 ， 发 送 端 和 接收 端 要 共享 相同 的 密 钥 k 才 能 进行 通信 。 发 送 
端 用 共享 的 密 钥 来 加 密 报 文 ， 并 将 得 到 的 密 文 发 送 给 接收 端 。 接 收 端 收 到 密 文 ， 并 
对 甚 应 用 解密 国 数 和 相同 的 共享 密 钥 ， 恢 复出 原始 的 明文 (参见 图 14-7). 

















明文 
P-D(Cd) 密 钥 =d 》 密 文 C 
2 [OO í 
解码 器 D 











14-7 ”对 称 密 钥 加 密 算法 为 编 / 解码 使 用 相同 的 密 钥 


流行 的 对 称 密 钥 加 密 算法 包括 : DES、Triple-DES、RC2 和 RC4。 


14.3.1 ” 密 钥 长 度 与 枚 举 攻击 
保持 密 钥 的 机 密 状 态 是 很 重要 的 。 在 很 多 情况 下 ， 编 /解码 算法 都 是 众所周知 的 ， 
因此 密 钥 就 是 唯一 保密 的 东西 了 。 


好 的 加 密 算法 会 迫使 攻击 者 试 遍 每 一 个 可 能 的 密 钥 ， 才 能 破解 代码 。 用 暴力 去 尝试 
所 有 的 密 钥 值 称 为 枚 举 攻 击 (enumeration attack) 。 如 果 只 有 几 种 可 能 的 密 钥 值 ， 居 
心 不 良 的 人 通过 暴力 遍历 所 有 值 ， 就 能 最 终 破解 代码 了 。 但 如 果 有 大 量 可 能 的 密 钥 
值 ， 他 可 能 就 要 花费 数 天 、 数 年 ， 甚 至 无 限 长 的 时 间 来 遍历 所 有 的 密 钥 ， 去 查找 能 
够 破解 密码 的 那 一 个 


可 用 密 钥 值 的 数量 取决 于 密 钥 中 的 位 数 ， 以 及 可 能 的 密 钥 中 有 多 少 是 有 效 的 。 就 对 
尔 密 钥 加 密 技 术 来 说 ， 通 常 所 有 的 密 钥 值 都 是 有 效 的 。* 8 位 的 密 钥 只 有 256 个 可 能 
的 密 钥 值 ，40 位 的 密 钥 可 以 有 2” 个 可 能 的 密 钥 值 (大 约 是 一 万 亿 个 密 钥 ) 128 位 
的 密 钥 可 以 产生 大 约 340 000 000 000 000 000 000 000 000 000 000 000 000 个 可 能 
HI ZE HIE. 











注 4: 有 些 加 密 技 术 中 只 有 部 分 密 钥 值 是 有 效 的 。 比 如 ， 在 最 知名 的 非 对称 密 钥 加 密 系 统 RSA 中 ， 有 效 密 
钥 必 须 以 某 种 方式 与 质数 相关 。 可 能 的 密 钥 值 中 只 有 少量 密 钥 具备 此 特性 。 
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在 传统 的 对 称 密 钥 加 密 技 术 中 ， 对 小 型 的 、 不 太 重要 的 事务 来 说 ，40 位 的 密 钥 就 足 
够 安全 了 。 但 现在 的 高 速 工作 站 就 可 以 将 其 破解 ， 这 些 工作 站 每 秒 可 以 进行 数 十 亿 
次 计算 。 

相 比 之 下 ， 对 于 对 称 密 钥 加 密 技术 ，128 位 的 密 钥 被 认为 是 非常 强大 的 。 实 际 上 ， 
长 密 钥 对 密码 安全 有 着 非常 重要 的 影响 ， 美 国政 府 甚至 对 使 用 长 密 钥 的 加 密 软件 实 
施 了 出 口 控制 ， 以 防止 潜在 的 敌对 组 织 创建 出 美国 国家 安全 局 (National Security 
Agency，NSA) 自己 都 无 法 破解 的 秘密 代码 。 








Bruce Schneier 编写 的 Applied Cryptography (John Wiley & Sons 出 版 社 ) 是 一 本 很 
棒 的 书 ， 书 中 有 一 张 表 ， 表 中 对 使 用 1995 年 的 技术 和 耗费 ， 通 过 猜测 所 有 的 密 钥 来 
破解 一 个 DES 密码 所 需 的 时 间 进 行 了 描述 。’ 表 14-1 摘录 了 这 张 表 。 


表 14-1 ” 较 长 的 密 钥 要 花费 更 多 的 精力 去 破解 (来自 Applied Cryptography 一 书 ，1995 年 














的 数据 ) 
攻击 耗费 40 位 密 钥 56 位 密 钥 64 位 密 钥 80 位 密 钥 128 位 密 钥 
100 000 美元 2 秒 35 小 时 1 年 70 000 年 10" 年 
1 000 000 美元 200 毫秒 3.5 小 时 37 天 7 000 年 10 年 
10 000 000 美元 20 毫秒 21 分 钟 4 天 700 年 10" 年 
100 000 000 美元 2 毫秒 2 分 钟 9 小 时 70 年 10'5 年 
1 000 000 000 美元 200 微 秒 13 秒 1 小 时 7 年 J0 4E. 


根据 1995 年 微 处 理 器 的 速度 ， 愿 意 花 费 100 000 美元 的 攻击 者 可 以 在 大 约 2 秒 内 破 
解 一 个 40 位 的 DES 代码 。2002 年 的 计算 机 就 已 经 比 1995 年 的 快 20 倍 了 。 除 非 用 
户 经 常 修改 密 钥 ， 否 则 对 于 别有用心 的 攻击 者 来 说 ，40 位 的 密 钥 是 不 安全 的 。 


DES 的 56 位 标准 密 钥 长 度 就 更 安全 一 些 。 从 1995 年 的 经 济 水 平 来 说 ， 花 费 100 万 
美元 进行 的 攻击 还 是 要 几 个 小 时 才能 破解 密码 。 但 可 使 用 超级 计算 机 的 用 户 则 只 需 
数秒 钟 即 可 通过 暴力 方法 破解 密码 。 与 之 相对 的 是 ， 通 常 大 家 都 认为 长 度 与 Triple- 
DES 密 钥 相当 的 128 位 DES 密 钥 实 际 上 是 任何 人 以 任何 代价 都 无 法 通过 暴力 攻击 
破解 的 。 ° 


























注 5: 1995 年 之 后 , 计算 速度 得 到 了 飞速 的 提高 , 费用 也 降低 了 。 你 越 晚 读 到 这 本 书 , 计算 的 速度 就 会 越 快 ! 
但 即使 所 需 的 时 间 会 成 5 倍 、10 倍 或 更 多 倍 的 减少 ， 这 张 表 仍然 是 有 参考 价值 的 。 

注 6: 但 是 ， 长 的 密 钥 并 不 意味 着 可 以 高 枕 无 忧 了 ! 加 密 算法 或 实现 中 可 能 会 有 不 为 人 注意 的 缺陷 ， 为 攻击 
者 提供 了 可 攻击 的 弱点 。 攻 击 者 也 可 能 会 有 一 些 与 密 钥 产生 方式 有 关 的 信息 ， 这 样 他 就 会 知道 使 用 某 
些 密 钥 的 可 能 性 比 另 一 些 要 大 ， 从 而 有 助 于 进行 有 目的 的 暴力 攻击 。 或 者 用 户 可 能 将 保密 的 密 钥 落 在 
了 什么 地 方 ， 被 攻击 者 偷 走 了 。 
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14.3.2 ”建立 共享 密 钥 
对 称 密 钥 加 密 技术 的 缺点 之 一 就 是 发 送 者 和 接收 者 在 互相 对 话 之 前 ， 一 定 要 有 一 个 
共享 的 保密 密 钥 。 


如 果 想 要 与 Joe 的 五 金 商店 进行 保密 的 对 话 ， 可 能 是 在 看 了 公共 电视 台 的 家 装 节 
目 之 后 ， 想 要 订购 一 些 木 工 工具 ， 那 么 在 安全 地 订购 任何 东西 之 前 ， 要 先 在 你 和 
www.joes-hardware.com 之 间 建 立 一 个 私有 的 保密 密 钥 。 你 需要 一 种 产生 保密 密 铀 
并 将 其 记 住 的 方式 。 你 和 Joe 的 五 金 商店 ， 以 及 因特网 上 所 有 其 他 人 ， 都 要 产生 并 
记 住 数 千 个 密 钥 。 

比如 Alice (A). Bob (B) 和 Chris (C) 都 想 与 Joe 的 五 金 商 店 (J) 对 话 。A、B 
fü C 都 要 建立 自己 与 J 之 间 的 保密 密 钥 。A 可 能 需要 密 钥 K^，B 可 能 需要 密 铀 
K”, C 可 能 需要 密 钥 K" 。 每 对 通信 实体 都 需要 自己 的 私有 密 钥 。 如 果 有 N 个 节点 ， 
每 个 节点 都 要 和 其 他 所 有 N-1 个 节点 进行 安全 对 话 ， 总 共 大 概 会 有 个 保密 密 钥 : 
这 将 是 一 个 管理 中 上 梦 。 


14.4 ”公开 密 钥 加 密 技 术 

公开 密 钥 加 密 技术 没有 为 每 对 主机 使 用 单独 的 加 密 / 解密 密 钥 ， 而 是 使 用 了 两 个 非 
对 称 密 钥 : 一 个 用 来 对 主机 报 文 编码 ， 另 一 个 用 来 对 主机 报 文 解码 。 编 码 密 钥 是 众 
所 周知 的 (这 也 是 公开 密 钥 加 密 这 个 名 字 的 由 来 )， 但 只 有 主机 才 知 道 私 有 的 解密 密 
H (参见 图 14-8)。 这 样 ， 每 个 人 都 能 找到 某 个 特定 主机 的 公开 密 钥 ， 窗 钥 的 建立 
变 得 更 加 人 简单。 但 解码 密 钥 是 保密 的 ， 因 此 只 有 接收 端 才 能 对 发 送 给 它 的 报 文 进行 
解码 。 
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图 14-8 ”公开 密 钥 加 密 技术 是 非 对 称 的， 为 编码 和 解码 使 用 了 不 同 的 密 钥 
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节点 X 可 以 将 其 加 密 密 钥 ex 公之于众 。 " 现在， 任何 想 向 节点 X 发 送 报 文 的 人 都 可 
以 使 用 相同 的 公开 密 钥 了 。 因 为 每 台 主 机 都 分 配 了 一 个 所 有 人 均 可 使 用 的 编码 密 铀 ， 
所 以 公开 密 钥 加 密 技术 避免 了 对 称 密 钥 加密 技 术 中 成 对 密 钥 数 目的 N 扩展 问题 ( 参 
见 图 14-9), 
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(a) 对 称 密 钥 加 密 技术 (b) 公开 密 钥 加 密 技术 











图 14-9 ”公开 密 钥 加 密 技术 为 每 台 主机 分 配 了 一 个 公开 编码 密 钥 


尽管 每 个 人 都 可 以 用 同一 个 密 钥 对 发 给 X 的 报 文 进行 编码 ， 但 除了 X， 其 他 人 都 无 
法 对 报 文 进行 解码 ， 因 为 只 有 X 才 有 解码 的 私有 密 钥 d。 将 密 钥 分 隔 开 来 可 以 让 所 
有 人 都 能 够 对 报 文 进 行 编码 ， 但 只 有 其 所 有 者 才能 对 报 文 进行 解码 。 这 样 ， 各 节点 
向 服 务 器 安全 地 发 送 报 文 就 更 加 容易 了 ， 因 为 它们 只 要 查找 到 服务 器 的 公开 密 钥 就 
行 了 。 

通过 公开 密 钥 加 密 技 术 ， 全 球 所 有 的 计算 机 用 户 就 都 可 以 使 用 安全 协议 了 。 人 制定 标 
准 化 的 公开 密 钥 技术 包 是 非常 重要 的 ， 因 此 ， 大 规模 的 公开 密 钥 架构 (Public-Key 
Infrastructure，PKI) 标准 创建 工作 已 经 开展 十 多 年 了 。 














14.4.4 RSA 


所 有 公开 密 钥 非 对 称 加 密 系 统 所 面临 的 共同 挑战 是 ， 要 确保 即便 有 人 拥有 了 下 面 所 
有 的 线索 ， 也 无 法 计算 出 保密 的 私有 密 铀 : 





HET. 我 们 稍 后 会 看 到 ， 大 部 分 公开 窗 钥 查找 工作 实际 上 都 是 通过 数字 证 书 来 实现 的 ， 但 如 何 找到 公开 窗外 
现在 并 不 重要 一 一 只 要 知道 可 以 在 某 个 地 方 公开 获取 就 行 了 。 
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。 公开 密 钥 (是 公有 的 ， 所 有 人 都 可 以 获得 ) ; 
° 一 小 片 拦 截 下 来 的 密 文 (可 通过 对 网 络 的 嗅 探 获 取 ) ; 
° 一 条 报 文 及 与 之 相关 的 密 文 (对 任意 一 段 文本 运行 加 密 器 就 可 以 得 到 )。 


RSA 算法 就 是 一 个 满足 了 所 有 这 些 条 件 的 流行 的 公开 密 钥 加 密 系统 ， 它 是 在 MIT 
发 明 的 ， 后 来 由 RSA 数据 安全 公司 将 其 商业 化 。 即 使 有 了 公共 密 钥 、 任 意 一 段 明 
文 、 用 公共 密 钥 对 明文 编码 之 后 得 到 的 相关 密 文 、RSA 算法 自身 ， 甚 至 RSA 实现 
的 源 代 码 ， 破 解 代码 找到 相应 的 私有 密 钥 的 难度 仍 相 当 于 对 一 个 极 大 的 数 进行 质 因 
数 分 解 的 困难 程度 ， 这 种 计算 被 认为 是 所 有 计算 机 科学 中 最 难 的 问题 之 一 。 因 此 ， 
如 果 你 发 现 了 一 种 能 够 快速 地 将 一 个 极 大 的 数字 分 解 为 质 因数 的 方法 ， 就 不 仅 能 够 
入 侵 瑞 士 银 行 的 账户 系统 ， 而 且 还 可 以 获得 图 灵 奖 了 。 


RSA 加 密 技 术 的 细节 中 包括 很 多 繁琐 的 数学 问题 ， 我 们 的 介绍 不 会 那么 深入 。 你 不 
需要 拥有 数论 方面 的 博士 学 位 ， 有 大 量 的 库 可 以 用 来 执行 RSA 算法 。 























14.4.8 ”混合 加 密 系 统 和 会 话 密 钥 

任何 人 只 要 知道 了 其 公开 密 钥 ， 就 可 以 向 一 台 公 共 服 务 器 发 送 安 全 报 文 ， 所 以 非 对 
称 的 公开 密 钥 加 密 系统 是 很 好 用 的 。 两 个 节点 无 须 为 了 进行 安全 的 通信 而 先 交换 私 
HRH. 


但 公开 密 钥 加 密 算法 的 计算 可 能 会 很 慢 。 实 际 上 它 混 合 使 用 了 对 称 和 非 对 称 策略 。 
比如 ， 比 较 常 见 的 做 法 是 在 两 节点 间 通 过 便捷 的 公开 密 钥 加 密 技 术 建 立 起 安全 通信 ， 
然后 再 用 那 条 安全 的 通道 产生 并 发 送 临 时 的 随机 对 称 密 钥 ， 通 过 更 快 的 对 称 加 密 技 
术 对 其 余 的 数据 进行 加 密 。 
































14.5 HFE 
到 目前 为 止 ， 我 们 已 经 讨论 了 各 种 使 用 对 称 和 非 对 称 密 钥 加 / 解密 保密 报 文 的 密 角 
加 密 技术 。 


除了 加 /解密 报 文 之 外 ， 还 可 以 用 加 密 系 统 对 报 文 进行 签名 〈sign) ， 以 说 明 是 谁 编 
写 的 报 文 ， 同 时 证 明报 文 未 被 自 改 过 。 这 种 技术 被 称 为 数字 签名 (digital signing), 
对 下 一 节 将 要 讨论 的 因特网 安全 证 书 系统 来 说 非常 重要 。 


签名 是 加 了 密 的 校 验 和 
数字 签名 是 附加 在 报 文 上 的 特殊 加 密 校 验 码 。 使 用 数字 签名 有 以 下 两 个 好 处 。 
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。 签名 可 以 证 明 是 作者 编写 了 这 条 报 文 。 只 有 作者 才 会 有 最 机 密 的 私有 密 钥 ,“ 因 
此 , 只 有 作者 才能 计算 出 这 些 校 验 和 。 校 验 和 就 像 来 自作 者 的 个 人 “签名 ”一 样 。 

。 签名 可 以 防止 报 文 被 自 改 。 如 果 有 恶意 攻击 者 在 报 文 传输 过 程 中 对 其 进行 了 修改 ， 
校 验 和 就 不 再 匹配 了 。 由 于 校 验 和 只 有 作者 保密 的 私有 密 钥 才能 产生 ， 所 以 攻击 
者 无 法 为 自 改 了 的 报 文 伪造 出 正确 的 校 验 码 。 


数字 签名 通常 是 用 非 对 称 公 开 密 钥 技 术 产 生 的 。 因 为 只 有 所 有 者 才 知 道 其 私有 密 钥 ， 
所 以 可 以 将 作者 的 私有 密 钥 当 作 一 种 “指纹 ”使 用 。 


图 14-10 显示 了 一 个 例子 ， 说 明了 节点 A 是 如 何 向 节点 B 发 送 一 条 报 文 ， 并 对 其 进 
行 签 名 的 。 


° 市 点 A 将 变 长 报 文 提取 为 定 长 的 摘要 。 

° 市 点 A 对 摘要 应 用 了 一 个 “签名 ”函数 ,这 个 函数 会 将 用 户 的 私有 密 钥 作 为 参数 。 
因为 只 有 用 户 才 知 道 私 有 密 钥 , 所 以 正确 的 签名 函数 会 说 明 签 名 者 就 是 其 所 有 者 。 
在 图 14-10 中 ， 由 于 解码 函数 D 中 包含 了 用 户 的 私有 密 钥 ， 所 以 我 们 将 其 作为 签 
名 函数 使 用 。” 

。 一 旦 计算 出 签名 , 市 点 A 就 将 其 附加 在 报 文 的 末尾 , 并 将 报 文 和 签名 都 发 送 给 B。 
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& 14-10 解密 的 数字 签名 








注 8: 此 时 假定 私有 密 钥 没有 被 人 偷 走 。 大 多 数 私 有 密 钥 都 会 在 一 段 时 间 后 过 期 。 还 有 一 些 “ 取 消 列 表 ” 记 
录 了 被 偷 走 或 入 侵 的 密 钥 。 

注 9: RSA 加 密 系 统 将 解码 函数 D 作为 签名 函数 使 用 ， 是 因为 DD 已 经 将 私有 密 钥 作为 输入 使 用 了 。 注 意 ， 
解码 函数 只 是 一 个 函数 ， 因 此 ， 可 以 将 其 用 于 任意 的 输入 。 同 样 ， 在 RSA 加 密 系统 中 ， 以 任意 顺序 
应 用 D 和 E 函数 时 ， 两 者 都 会 相互 抵消 。 因 此 E(D(stuff)) = stuff， 就 像 D(E(stuff)) = stuff 一 样 。 
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° (Em, AR s B 需要 确定 报 文 确实 是 节点 A 写 的 ， 而 且 没 有 被 自 改 过 ， 
节点 B 就 可 以 对 签名 进行 检查 。 节 点 B 接收 经 私有 密 钥 扰 码 的 签名 ， 并 应 用 了 
使 用 公开 密 钥 的 反 函 数 。 如 果 拆 包 后 的 摘要 与 证 点 B 自己 的 摘要 版 本 不 匹配 ， 要 
么 就 是 报 文 在 传输 过 程 中 被 纂 改 了 ， 要么 就 是 发 送 端 没有 市 点 A 的 私有 密 钥 (也 
就 是 说 它 不 是 节点 A)。 


14.6 FEE 
本 节 将 介绍 因特网 上 的 “ID 卡 ” 一 一 数字 证 书 。 数 字 证 书 (通常 被 称 作 “certs”， 
有 点 像 certs kie E) 中 包含 了 由 基 个 受信 任 组 织 担保 的 用 户 或 公司 的 相关 信息 。 


我 们 每 个 人 都 有 很 多 形式 的 身份 证 明 。 有 些 ID， 比 如 护照 和 驾照 ， 都 足以 在 很 多 场 
合 证 明 某 人 的 身份 。 例 如 ， 你 可 以 用 美国 的 驾照 在 新 年 前 夜 搭乘 前 往 纽约 的 航班 ， 
在 你 到 那儿 之 后 ， 接 着 用 它 来 证 明 你 的 年 龄 ， 这 样 你 就 能 和 朋友 们 一 起 喝酒 了 。 


受信 程度 更 高 的 身份 证 明 ， 比 如 护照 ， 是 由 政府 在 特殊 的 纸 上 签 发 并 盖 章 的 。 很 难 
伪造 ， 因 此 可 以 承载 较 高 的 信任 度 。 有 些 公司 的 徽章 和 智能 卡 中 包含 有 电子 信息 ， 
以 强化 使 用 者 的 身份 证 明 。 有 些 绝密 的 政府 组 织 甚至 会 对 你 的 指纹 或 视网膜 毛细 血 
管 模式 进行 匹配 以 便 确认 你 的 ID ! 


有 些 形式 的 ID， 比 如 名 片 ， 相 对 来 说 更 容易 伪造 ， 因 此 人 们 不 太 信 任 这 些 信息 。 虽 
然 足以 应 付 职场 交流 ， 但 申请 住房 贷款 时 ， 可 能 就 不 足以 证 明 你 的 就 业 情 况 了 。 





























14.6.1 证 书 的 主要 内 容 
数字 证 书 中 还 包含 一 组 信息 ， 所 有 这 些 信息 都 是 由 一 个 官方 的 “证 书 颁 发 机 构 ” 以 
数字 方式 签发 的 。 基 本 的 数字 证 书 中 通常 包含 一 些 纸 质 ID 中 常见 的 内 容 ， 比 如 : 


° 对 象 的 名 称 (人 、 服 务 器 、 组 织 等 ) ; 
。 证 书 发 布 者 (由 谁 为 证 书 担保 ) ; 
。 来 自 证 书 发 布 者 的 数字 签名 。 


而 且 ， 数 字 证 书 通常 还 包括 对 象 的 公开 密 钥 ， 以 及 对 象 和 所 用 签名 算法 的 描述 性 信 
息 。 任 何人 都 可 以 创建 一 个 数字 证 书 ， 但 并 不 是 所 有 人 都 能 够 获得 受 人 尊敬 的 签发 
权 ， 从 而 为 证 书信 息 担保 ， 并 用 其 私有 密 钥 签发 证 书 。 典 型 的 证 书 结构 如 图 14-11 
所 示 。 
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证 书 格式 版 本 号 





证 书 序列 号 





证 书签 名 算法 
证 书 颁 发 者 














LQ| 数字 签 
有 效 其 名 函数 





对 象 名 称 





对 象 的 公开 密 铀 





人 NNN x | 


其 他 扩展 信息 




















数字 签名 











图 14-11 


典型 的 数字 签名 格式 


14.6.2 X.509 v3 证 书 
不 幸 的 是 ， 数 字 证 书 没有 单一 的 全 球 标准 。 就 像 不 是 所 有 印刷 版 ID 卡 都 在 同样 的 位 
置 包 含 了 同样 的 信息 一 样 ， 数 字 证 书 也 有 很 多 略 有 不 同 的 形式 。 不 过 好 消息 就 是 现 
在 使 用 的 大 多 数 证 书 都 以 一 种 标准 格式 一 一 X.509 v3, 来 存储 它们 的 信息 。X.509 v3 
证 书 提供 了 一 种 标准 的 方式 ， 将 证 书信 息 规范 至 一 些 可 解析 字段 中 。 不 同类 型 的 证 
书 有 不 同 的 字段 值 ， 但 大 部 分 都 遵循 X.509 v3 结构 。 表 14-2 介绍 了 X.509 证 书 中 





的 字段 信息 。 


表 14-2 X.509 证 书 字段 





















































字 R 描 ë 
版 本 这 个 证 书 的 X.509 证 书 版 本 号 。 现 在 使 用 的 通常 都 是 版 本 3 
序列 号 证 书 颁发 机 构 (CA) 生成 的 唯一 整数 。CA 生成 的 每 个 证 书 都 要 有 一 个 
唯一 的 序列 号 
签名 算法 ID 签名 所 使 用 的 加 密 算法 。 例 如 ,“ 用 RSA 加 密 的 MD2 摘要 ” 
证 书 颁发 者 发 布 并 签署 这 个 证 书 的 组 织 名 称 ， 以 X.500 格式 表示 
有 效 期 此 证 书 何 时 有 效 ， 由 一 个 起 始 日 期 和 一 个 结束 日 期 来 表示 
对 象 名 称 证 书 中 描述 的 实体 ， 比 如 一 个 人 或 一 个 组 织 。 对 象 名 称 是 以 X.500 格式 


对 象 的 公开 密 钥 信息 
发 布 者 唯一 的 ID (可 选 ) 
对 象 唯一 的 ID (可 选 ) 








表示 的 











证 书 对 象 的 公开 密 钥 ， 公 开 密 钥 使 用 的 算法 ， 以 及 所 有 附加 参数 


可 选 的 证 书 发 布 者 唯一 标识 符 ， 这 样 就 可 以 重用 相同 的 发 布 者 名 称 

















可 选 的 证 书 对 象 唯一 标识 符 ， 这 样 就 可 以 重 





相同 的 对 象 名 称 了 
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= B Hook 

扩展 可 选 的 扩展 字段 集 (在 版 本 3 及 更 高 的 版 本 中 使 用 ) 。 每 个 扩展 字段 都 被 
标识 为 关键 或 非 关键 的 。 关 键 扩展 非常 重要 ， 证 书 使 用 者 一 定 要 能 够 理 
解 。 如 果 证 书 使 用 者 无 法 识别 出 关键 扩展 字段 ， 就 必须 拒绝 这 个 证 书 。 
目前 在 使 用 的 常用 扩展 字段 包括 
基本 约束 
对 象 与 证 书 颁发 机 构 的 关系 
证 书 策略 
授予 证 书 的 策 咯 
密 钥 的 使 用 
对 公开 密 钥 使 用 的 限制 

证 书 的 颁发 机 构 签名 证 书 颁发 机 构 用 指定 的 签名 算法 对 上 述 所 有 字段 进行 的 数字 签名 











基于 X.509 证 书 的 签名 有 好 儿 种 ，( 其 中 ) 包括 Web 服务 器 证 书 、 客 户 端 电子 邮件 
证 书 、 软 件 代码 签名 证 书 和 证 书 颁 发 机 构 证 书 。 











14.6.3 ”用 证 书 对 服务 器 进行 认证 

通过 HTTPS 建立 了 一 个 安全 Web 事务 之 后 ， 现 代 的 浏览 器 都 会 自动 获取 所 连接 服 
务 器 的 数字 证 书 。 如 果 服 务 器 没有 证 书 ， 安 全 连接 就 会 失败 。 服 务 器 证 书 中 包含 很 
多 字段 ， 其 中 包括 ; 


° Web 站 点 的 名 称 和 主机 名 ， 
° Web 站 点 的 公开 密 钥 ，; 
。 签名 颁发 机 构 的 名 称 ; 
。 来 自 签 名 颁发 机 构 的 签名 。 


浏览 器 收 到 证 书 时 会 对 签名 颁发 机 构 进行 检查 。" 如果 这 个 机 构 是 个 很 有 权威 的 公 
共 签 名 机 构 ， 浏 览 器 可 能 已 经 知道 其 公开 密 钥 了 (浏览 器 会 预先 安装 很 多 签名 颁发 
机 构 的 证 书 )。 这 样 ， 就 可 以 像 前 面 的 14.5 节 中 所 讨论 的 那样 验证 签名 了 。 图 14-12 
说 明了 如 何 通过 其 数字 签名 来 验证 证 书 的 完整 性 。 

如 果 对 签名 颁发 机 构 一 无 所 知 ， 浏 览 器 就 无 法 确定 是 否 应 该 信任 这 个 签名 颁发 机 构 ， 
它 通常 会 向 用 户 显示 一 个 对 话 框 ， 看 看 他 是 否 相信 这 个 签名 发 布 者 。 签 名 发 布 者 可 
能 是 本 地 的 IT 部 门 或 软件 厂商 。 
































注 10: 浏览 器 和 其 他 因特网 应 用 程序 都 会 尽量 隐藏 大 部 分 证 书 管理 的 细节 ， 使 得 浏览 更 加 方便 。 但 通过 安 
全 连接 进行 浏览 时 ， 所 有 主要 的 浏览 器 都 允许 你 自己 去 检查 所 要 对 话 站 点 的 证 书 ， 以 确保 所 有 内 容 
都 是 诚实 可 信和 的。 
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正 书 格式 版 本 号 
证 书 序列 号 
证 书签 名 算法 
证 书 颁发 者 (签名 颁发 机 构 ) 


HAE 00 | pe LI 
对 象 名 称 


对 象 的 公开 密 铀 








E 




































































其 他 扩展 信息 x 
Ru x x x Z] i 
Z A 报 文摘 要 
数字 签名 ke "jeg = +P i> 
签名 颁发 机 构 


的 公开 密 铀 














14-12 ”验证 签名 是 真 的 


14.7 HTTPS 一 一 细节 介绍 


HTTPS 是 最 常见 的 HTTP 安全 版 本 。 它 得 到 了 很 广泛 的 应 用 ， 所 有 主要 的 商业 浏览 
器 和 服务 器 上 都 提供 HTTPS。HTTPS 将 HTTP 协议 与 一 组 强大 的 对 称 、 非 对 称 和 
基于 证 书 的 加 密 技术 结合 在 一 起 ， 使 得 HTTPS 不 仅 很 安全 ， 而 且 很 灵活 ， 很 容易 
在 处 于 无 序 状态 的 、 分 散 的 全 球 互联 网 上 进行 管理 


HTTPS 加 速 了 因特网 应 用 程序 的 成 长 ， 已 经 成 为 基于 Web 的 电子 商务 快速 成 长 的 
主要 推动 力 。 在 广域网 中 对 分 布 式 Web 应 用 程序 的 安全 管理 方面 ，HTTPS 也 是 非 
常 重要 的 。 














14.7.4 HTTPS 概 述 

HTTPS 就 是 在 安全 的 传输 层 上 发 送 的 HTTP。HTTPS 没有 将 未 加 密 的 HTTP FR 
文 发 送 给 TCP， 并 通过 世界 范围 内 的 因特网 进行 传输 (参见 图 14-13a)， 它 在 将 
HTTP 报 文 发 送 给 TCP 之 前 ， 先 将 其 发 送 给 了 一 个 安全 层 ， 对 其 进行 加 密 (参见 
14-13b), 























HE, HTTP 安全 层 是 通过 SSL KERRIN TLS 来 实现 的 。 我 们 遵循 常见 的 
用 法 ， 用 术语 SSL 来 表示 SSL 或 者 TLS, 
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HTTP 应 用 层 


























HTTP 应 用 层 SS or TLS 安全 层 
TCP 传输 层 TCP 传输 层 
IP 网 络 层 IP 网 络 层 
网 络 接口 数据 链 路 层 网 络 接口 数据 链 路 层 
(a)HTTP (b)HTTPS 











14-13 HTTP 传输 层 安全 


14.7.2 HTTPS7; 3E 


现在 ， 安 全 HTTP 是 可 选 的 。 因 此 ， 对 Web 服务 器 发 起 请 求 时 ， 我 们 需要 有 一 种 方 
式 来 告知 Web 服务 器 去 执行 HTTP 的 安全 协议 版 本 。 这 是 在 URL 的 方案 中 实现 的 。 


通常 情况 下 ， 非 安全 HTTP 的 URL 方案 前 缀 为 http ， 如 下 所 示 : 








http://www.joes-hardware.com/index.html 


在 安全 HTTPS 协议 中 ，URL 的 方案 前 级 为 https， 如 下 所 示 : 





https://cajun-shop.securesites.com/Merchant2/merchant.mv?Store_Code=AGCGS 


请 求 一 个 客户 端 (比如 Web 浏览 器 ) 对 某 Web 资源 执行 某 事 务 时 ， 它 会 去 检查 
URL 的 方案 。 


° 如 果 URL 的 方案 为 http， 客 户 端 就 会 打开 一 条 到 服务 器 端口 80 (默认 情况 下 ) 
的 连接 ， 并 向 其 发 送 老 的 HTTP 命令 (参见 图 14-14a)。 

° 如 果 URL 的 方案 为 https， 客 户 端 就 会 打开 一 条 到 服务 器 端口 443 (默认 情况 下 ) 
的 连接 ， 然 后 与 服务 器 “握手 ”， 以 二 进 制 格式 与 服务 器 交换 一 些 SSL 安全 参数 ， 
附 上 加 密 的 HTTP 命令 (参见 图 14-14b)。 











SSL 是 个 二 进 制 协议 ， 与 HTTP 完全 不 同 ， 其 流量 是 承载 在 另 一 个 端口 上 的 (SSL 
通常 是 由 端口 443 承载 的 ) 。 如 果 SSL 和 HTTP 流量 都 从 端口 80 到 达 ， 大 部 分 Web 
服务 器 会 将 二 进 制 SSL 流量 理解 为 错误 的 HTTP 并 关闭 连接 。 将 安全 服务 进一步 整 
合 到 HTTP 层 中 去 就 无 需 使 用 多 个 目的 端口 了 ， 在 实际 中 这 样 不 会 引发 严重 的 问题 。 


我 们 来 详细 介绍 下 SSL 是 如 何 与 安全 服务 器 建立 连接 的 。 
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(a) HTTP 请 求 


MZ 
HTTP » 











客户 端 服务 器 
(b)HTTPS 请 求 
< 
HTTPS BNP 
PUR 安全 服务 器 
(c)HTTP 隧 道上 的 HITTPS 
x, 
qr. == i KO 
-> Ou. 2 HTIPNEMD) 
HrTPSEGN —— DU 
客户 端 安全 服务 器 











14-14. HTTP 和 HTTPS 端口 号 


14.7.8 建立 安全 传输 
ERME HTTP 中 ， 客 户 端 会 打开 一 条 到 Web 服务 器 端口 80 的 TCP 连接， 发 送 一 
条 请 求 报 文 ， 接 收 一 条 响应 报 文 ， 关 闭 连接 。 图 14-15a 对 此 序列 进行 了 说 明 。 


由 于 SSL 安全 层 的 存在 ，HTTPS 中 这 个 过 程 会 略微 复杂 一 些 。 在 HTTPS 中 ， 客 户 
端 首先 打开 一 条 到 Web 服务 器 端口 443 (安全 HTTP 的 默认 端口 ) 的 连接 。 一 旦 建 
T TCP 连接 ， 客 户 端 和 服务 器 就 会 初始 化 SSL 层 ， 对 加 密 参 数 进行 沟通 ， 并 交 
换 密 钥 。 担 和 手 完成 之 后 ，SSL 初始 化 就 完成 了 ， 客 户 端 就 可 以 将 请 求 报 文 发 送 给 安 
全 层 了 。 在 将 这 些 报 文 发 送 给 TCP 之 前 ， 要 先 对 其 进行 加 密 。 图 14-15b 对 此 过 程 
进行 了 说 明 。 




















14.7.4 SSL 握 手 
在 发 送 已 加 密 的 HTTP 报 文 之 前 ， 客 户 端 和 服务 器 要 进行 一 次 SSL 握手 ， 在 这 个 握 
手 过 程 中 ， 它 们 要 完成 以 下 工作 : 


° 交换 协议 版 本 号 ， 

° 选择 一 个 两 端 都 了 解 的 密码 ， 

° 对 两 端的 身份 进行 认证 ， 

° 生成 临时 的 会 话 密 钥 ， 以 便 加 密 信道 。 
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(a) 未 加 密 的 HTTP 事 务 


因特网 


客户 端 
建立 到 服务 器 端口 80 的 TCP 连 接 








g 因特网 = 
客户 端 
在 TCP 上 发 送 HTTP 请 求 
因特网 
客户 端 
在 TCP 上 发 送 HTTP 响 应 


口 ge 


因特网 
80 > = 443 
o Bm 
服务 器 ,客户 端 服务 器 
建立 到 服务 器 端口 443 的 TCP 连 接 
因特网 
© 
客户 端 服务 器 
SSL 安 全 参数 握手 
LZA 
-Eoma -~ -B 
务 器 ! 客户 端 服务 器 


-Eoma ft 


r s. B 


(b) 加 密 的 HTTPS 事 务 











在 SSL 上 发 送 HTTP 请 求 /在 TCP 上 发 送 已 加 密 的 请 求 


> El 
服务 器 | 客户 端 服务 器 
在 SSL 上 发 送 HITTP 啊 应 /在 TCP 上 发 送 已 加 密 的 啊 应 





em 
© | 
客户 端 服务 器 
SSL 关 闭 通知 








d Pug 服务 器 ! 客户 端 服务 器 
TCP 连 接 关闭 TCP 连 接 关闭 

14-15 HTTP 和 HTTPS 事务 

在 通过 网 络 传输 任何 已 加 密 的 HTTP 数据 之 前 ，SSL 已 经 发 送 了 一 组 担 手数 据 来 建 














立 通信 连接 了 。 图 14-16 显示 了 SSL 握手 的 基本 思想 。 
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| u 客户 端 特 网 服务 器 
LS => (2) 服务 器 发 送 选中 的 密码 和 证 书 
服务 器 
客户 六 特 网 服务 器 Up s = 
SSL 安 全 参数 的 握手 E ; ! ; 
` zm 因特网 服务 器 
E^ (3) 客户 端 发 送 保密 信息 ;客户 端 和 服 
| 4 98H cs 
N 一 — 
` ' rre ^E 
N 
ç 客户 端 因特网 服务 器 














\、 (O) 客户 端 和 服务 器 互相 告知 ， 开 始 加 密 过 程 














图 14-16 (简化 版 ) SSL 握手 


这 是 SSL 握手 的 简化 版 本 。 根 据 SSL 的 使 用 方式 ， 握 手 过 程 可 能 会 复杂 一 些 , 人 
的 思想 就 是 这 样 。 





14.7.5 ”服务 器 证 书 

SSL 支持 双向 认证 ， 将 服务 器 证 书 承 载 回 客户 端 ， 再 将 客户 端的 证 书 回 送 给 服务 器 。 
而 现在 ， 浏 览 时 并 不 经 常 使 用 客户 端 证 书 。 大 部 分 用 户 甚至 都 没有 自己 的 客户 端 证 
书 。 服务 器 可 以 要 求 使 用 客户 端 证 书 ， 但 实际 中 很 少 出 现 这 种 情况 。 











另 一 方面 ， 安 全 HTTPS 事务 总 是 要 求 使 用 服务 器 证 书 的 。 在 一 个 Web 服务 器 上 执行 
安全 事务 ， 比 如 提交 信用 卡 信息 时 ， 你 总 是 希望 是 在 与 你 所 认为 的 那个 组 织 对 话 。 由 
知名 权威 机 构 签发 的 服务 器 证 书 可 以 帮助 你 在 发 送信 用 卡 或 私人 信息 之 前 评估 你 对 服 
务 器 的 信任 度 。 




















注 11: 在 某 些 公司 的 网 络 设置 中 会 将 客户 端 证 书 用 于 Web 浏览 , 客户 端 证 书 还 被 用 于 安全 电子 邮件 。 未 来 ， 
客户 端 证 书 可 能 会 更 经 常 地 用 于 Web 浏览 ， 但 现在 它们 发 展 的 速度 非常 慢 。 
注 12: 有 些 组 织 的 内 部 网 络 会 使 用 客户 端 证 书 来 控制 雇员 对 信息 的 访问 。 
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服务 器 证 书 是 一 个 显示 了 组 织 的 名 称 、 地 址 、 服 务 器 DNS 域名 以 及 其 他 信息 的 
X.509 v3 派生 证 书 (参见 图 14-17) 。 你 和 你 所 用 的 客户 端 软件 可 以 检查 证 书 ， 以 确 
保 所 有 的 信息 都 是 可 信 的 。 








.因特网 服务 器 


- 


























证 书 序列 号 35:DE:F4:CF 
证 书 过 期 时 间 Wed,Sep 17,2003 
站 点 的 组 织 名 Joe’s Hardware Online 





站 点 的 DNS 主 机 名 www.joes-hardware.com 








站 点 的 公开 密 角 qe 





证 书 颁发 者 的 名 称 RSA Data Security 
证 书 颁发 者 的 签名 Jona Doe 





























14.7.6 ”站 点 证 书 的 有 效 性 

SSL 自身 不 要 求 用 户 检查 Web 服务 器 证 书 ， 览 器 都 会 对 证 书 进行 简 
单 的 完整 性 检查 ， 并 为 用 户 提 供 进 行进 一 步 彻 查 的 手段 。 网 景 公 司 提出 的 一 种 Web 
服务 器 证 书 有 效 ; ATH Aa an VE Zu E EA 验证 步骤 如 下 所 述 。 


° 日 期 检测 
首先 ， 浏 览 器 检查 证 书 的 起 始 日 期 和 结束 日 期 ， 以 确保 证 书 仍然 有 效 。 如 果 证 了 
过 期 了 ， 或 者 还 未 被 激活 ， 则 证 书 有 效 性 验证 失败 ， 浏 览 器 显示 一 条 错误 信息 。 


pu» 








。 签名 颁发 者 可 信 度 检测 
每 个 证 书 都 是 由 某 些 证 书 颁发 机 构 (CA) 签发 的 ， 它 们 负责 为 服务 器 担保 。 证 
书 有 不 同 的 等 级 ， 每 种 证 书 都 要 求 不 同 级 别 的 背景 验证 。 比 如 ， 如 果 申 请 某 个 电 
子 商 务 服务 器 证 书 ， 通 常 需要 提供 一 个 营业 的 合法 证 明 。 




















任何 人 都 可 以 生成 证 书 ， 但 有 些 CA 是 非常 著名 的 组 织 ， 它 们 通过 非常 清晰 的 流 
程 来 验证 证 书 申请 人 的 身份 及 商业 行为 的 合法 性 。 因 此 ， 浏 览 器 会 附带 一 个 签 
名 颁发 机 构 的 受信 和 列表。 如 果 浏 览 器 收 到 了 某 未 知 ( 可 能 是 恶意 的 ) 颁发 机 构 


Iy ng 
LE 
AE TH 
D 
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签发 的 证 书 ， 那 它 通 常会 显示 一 条 警告 信息 。 有 些 证 书 会 携带 到 受信 CA 的 有 效 
签名 路 径 ， 浏 览 器 可 能 会 选择 接受 所 有 此 类 证 书 。 换 名 话说， 如 果 某 受信 CA 为 
“Sam 的 签名 商店 ”签发 了 一 个 证 书 ， 而 Sam 的 签名 商店 也 签发 了 一 个 站 点 证 
书 ， 浏 览 器 可 能 会 将 其 作为 从 有 效 CA 路 径 导出 的 证 书 接受 。 








° 签名 检测 
一 旦 判定 签名 授权 是 可 信和 的 ， 浏 览 器 就 要 对 签名 使 用 签名 颁发 机 构 的 公开 密 铀 ， 
并 将 其 与 校 验 码 进行 比较 ， 以 查看 证 书 的 完整 性 。 





。 站 点 身份 检测 
为 防止 服务 器 复制 其 他 人 的 证 书 ， 或 拦截 其 他 人 的 流量 ， 大 部 分 浏览 器 都 会 试 着 
去 验证 证 书 中 的 域名 与 它们 所 对 话 的 服务 器 的 域名 是 否 匹配 。 服 务 器 证 书 中 通常 
都 包含 一 个 域名 ， 但 有 些 CA 会 为 一 组 或 一 群 服务 器 创建 一 些 包 含 了 服务 器 名 称 
列表 或 通 配 域名 的 证 书 。 如 果 主 机 名 与 证 书 中 的 标识 符 不 匹配 ， 面 向 用 户 的 客户 
端 要 么 就 去 通知 用 户 ， 要 么 就 以 表示 证 书 不 正确 的 差错 报 文 来 终止 连接 。 
































14.7.7 虚拟 主机 与 证 书 

对 虚拟 主机 (一 台 服 务 器 上 有 多 个 主机 名 ) 站 点 上 安全 流量 的 处 理 有 时 是 很 环 手 的 。 
有 些 流行 的 Web 服务 器 程序 只 支持 一 个 证 书 。 如 果 用 户 请 求 的 是 虚拟 主机 名 ， 与 证 
书 名 称 并 不 严格 匹配 ， 浏 览 器 就 会 显示 警告 框 。 


比如 ， 我 们 来 看 以 路 易 斯 安 那 州 为 主题 的 电子 商务 网 站 Cajun-Shop.com。 站 点 的 托 
管 服务 提供 商 提 供 的 官方 名 称 为 cajun-shop.securesites.com。 用 户 进入 http://www. 
cajun-shop.com 时 ， 服 务 器 证 书 中 列 出 的 官方 主机 名 (*.securesites.com) 与 用 户 浏 
览 的 虚拟 主机 名 (www.cajun-shop.com) 不 匹配 ， 以 致 出 现 图 14-18 中 的 警告 。 


为 防止 出 现 这 个 问题 ，Cajun-Shop.com 的 所 有 者 会 在 开始 处 理 安全 事务 时 ， 将 所 有 
用 户 都 重 定向 到 cajun-shop.securesites.com。 虚 拟 主 机 站 点 的 证 书 管 理会 稍微 环 手 
一 些 。 














14.8 HTTPS 客 户 端 实例 

SSL 是 个 复杂 的 二 进 制 协议 。 除 非 你 是 密码 专家 ， 否 则 就 不 应 该 直接 发 送 原始 的 
SSL 流量 。 幸 运 的 是 ， 借 助 一 些 商业 或 开源 的 库 ， 编 写 SSL 客户 端 和 服务 器 并 不 十 
分 困难 。 
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(a) 由 于 站 点 是 虚拟 主 
机 站 点 ， 而 证 书 的 主机 名 
为 *.Securesites.com， 所 以 
这 个 URL (www.cajun-shop.com) 


中 的 主机 名 与 证 书 中 的 名 称 不 匹配 。 

















ETT > 


Information you exchange with this site cannot be viewed or 
1 Bleed ie A However, there is a prol oben with the ste le's 


@ The security certificate is from a trusted certifying authority. 





26 PA (b) 对 话 框 警告 用 户 站 点 证 书 的 日 期 有 效 ， 
RI E LUI 而 且 来 自 有 效 的 证 书 颁 发 机 构 ， 但 证 书 
^ asss 中 所 列 名 称 与 URL 所 请 求 的 站 点 不 相符 。 























Do you want to proceed? 





| Yewcerifcate 
[ereraa us 


General | petais | Certification Path | 


EE] certincate information 
This certificate is intended for the following purpose(s): 


ier nth ama cae (c) 为 了 获取 更 详细 的 信息 ， 用 户 点 击 了 “查看 
et 证 书 ”按钮 ， 看 到 证 书 是 一 个 通 配 证 书 ， 主 机 
名 为 *.securesites.com。 有 此 信息 之 后 ， 用 户 就 
可 以 判定 是 该 接受 还 是 该 拒绝 这 个 证 书 了 。 




















Issued by: Thawte Server CA 





Valid from 11/19/2001 to 11/19/2002 


Install Certificate... | Issuer Staterneri 



















































































E = 5 万 a E 
Ë (Q) 接 受 证 书 ， 通 过 安全 HTTPS 
š 协议 装载 页 面 。 为 避免 此 类 用 
—HÜ 错误， 这 个 特定 的 站 点 将 所 
CAJUN-SHOP;COM 户 错误 ， 这 个 | 
CAJUNESHOP:COM [| 有 HTTPS 访 昌都 导向 了 主机 
别名 cajun-shop.securesites.com。 
这 个 虚拟 主机 名 与 ISP 在 其 商业 
Account Search Product List Bosket Contents out I^ 包 中 提供 的 证 书 名 字 相 符 。 
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图 14-18 证 书 名 不 匹配 引发 的 证 书 错误 对 话 杠 


14.8.1 OpenSSL 


OpenSSL 是 SSL FH TLS 最 常见 的 开源 实现 。OpenSSL 项 目 由 一 些 志愿 者 合作 开发 ， 
目标 是 开发 一 个 强壮 的 、 具 有 完备 功能 的 商业 级 工具 集 ， 以 实现 SSL 和 TLS 协议 以 
及 一 个 全 功能 的 通用 加 密 库 。 可 以 从 http://www.openssl.org 上 获得 OpenSSL 的 相 
关 信 息 ， 并 下 载 相应 软件 。 
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你 可 能 还 听 说 过 SSLeay ( 读 作 S-S-L-e-a-y), OpenSSL 是 SSLeay 库 的 后 继 者 ， 接 
口 非常 相似 。SSLeay 最 初 是 由 Eric A. Young (就 是 SSLeay 中 的 “eay”) 开发 的 。 


14.8.2 ”简单 的 HTTPS 客 户 端 

本 节 我 们 将 用 OpenSSL 包 来 编写 一 个 非常 初级 的 HTTPS 客户 端 。 这 个 客户 端 与 服 
务 器 建立 一 条 SSL 连接 ， 打 印 一 些 来 自 站 点 服务 器 的 标识 信息 ， 通 过 安全 信道 发 送 
HTTP GET 请 求 ， 接 收 HTTP 响应 ， 并 将 响应 打印 出 来 。 


下 面 显示 的 C 程序 是 普通 HTTPS 客户 端的 OpenSSL 实现 。 为 了 保持 其 简洁 性 ， 程 
序 中 没有 包含 差错 处 理 和 证 书 处 理 逻 辑 。 


这 个 示例 程序 中 删除 了 差错 处 理 功 能 ， 所 以 只 能 将 其 用 于 示例 。 在 一 般 的 有 差错 存 
在 的 环境 中 ， 软 件 会 崩溃 或 者 无 法 正常 运行 。 





| x 1 k k k Kk k k k k K K K K K K K KOK K K KOK KOK KOK KOK KOK KOK KOK KOK KO KOK KOK k Ck Ck Ck Ck Ck Ck K kck ck ck ck k k k ck ck kc k ck ck ck ck K RO KOK 


* https_client.c --- very simple HTTPS client with no error checking 


i usage: https client servername 
* 1 k k 1 k CK k k K Kk K K K K K K k K K K KOK K K K KOK K K K KOK KOK KOK K K KOR ck ck k Ck Ck Ck Ck Ck Ck K R ck ck ck ck k R kck ck k ck ck KOR e e R A 


#include <stdio.h> 
#include <memory.h> 
#include <errno.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 
#include <arpa/inet.h> 
#include <netdb.h> 


#include <openssl/crypto.h> 
#include <openssl/x509.h> 
#include <openssl/pem.h> 
#include <openssl/ssl.h> 
#include <openssl/err.h> 





void main(int argc, char **argv) 


( 


SSL *ssl; 

SSL CTX *ctx; 

SSL METHOD *client method; 

X509 *server cert; 

int sd,err; 

char *str,*hostname,outbuf[4096],inbuf[4096],host header[512]; 
struct hostent *host entry; 

struct sockaddr in server socket address; 

struct in_addr ip; 





/*========================================* / 
/* (1) initialize SSL library */ 
六 
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SSLeay add ssl algorithms( ); 

client method - SSLv2 client method( ); 
SSL load error strings( ); 

ctx - SSL CTX new(client method); 
printf("(1) SSL context initializedWNnWin"); 





/*=============================================* / 
/* (2) convert server hostname into IP address */ 
J*=============================================* / 
hostname = argv[1]; 

host entry - gethostbyname (hostname); 


bcopy(host entry-»h addr, &(ip.s addr), host entry-»h length); 


printf("(2) '$s' has IP address '%s'\n\n", hostname, inet ntoa(ip)); 
/*=================================================* / 
/* (3) open a TCP connection to port 443 on server */ 
/*=================================================* / 


Sd = socket (AF INET, SOCK STREAM, 0); 


memset(&server socket address, '\0', sizeof(server socket address)); 
Server socket address.sin family - AF INET; 
Server socket address.sin port - htons(443); 


memcpy(&(server socket address.sin addr.s addr), 
host entry-»h addr, host entry-»h length); 


err - connect(sd, (struct sockaddr*) &server socket address, 
sizeof(server socket address)); 
if (err « O) ( perror("can't connect to server port"); exit(1); ) 


printf("(3) TCP connection open to host '$s', port %dNnNn", 
hostname, server socket address.sin port); 








/ss 
/* (4) initiate the SSL handshake over the TCP connection */ 
/ =/ 
ssl = SSL new(ctx); /* create SSL stack endpoint */ 

SSL set fd(ssl, sd); /* attach SSL stack to socket */ 

err = SSL connect(ssl); /* initiate SSL handshake */ 


printf("(4) SSL endpoint created & handshake completedWMnWin"); 


j*esssssssssssosczizcssoLle22l22oc2c22csc2zc-el22sz-*/ 
/* (5) print out the negotiated cipher chosen */ 
J *============================================%* / 


printf("(5) SSL connected with cipher: %s\n\n", SSL_get_cipher(ss1l)); 





/*===s====s============s===================%/ 

/* (6) print out the server's certificate */ 

/ *========================================%* / 

Server cert = SSL get peer certificate(ssl); 

printf("(6) server's certificate was received: WMnMn"); 

str = X509 NAME oneline(X509 get subject name(server cert), 0, 0); 
printf(" subject: $sWMn", str); 

^ == 


str = X509 NAME oneline(X509 get issuer name(server cert), 0, 0); 


printf(" issuer: $sWMnWMn", str); 
/* certificate verification would happen here */ 


X509 free(server cert); 


J EEK K K k Ck k k k k k k K k K K K K KOK K K KOK K K KOR kc KOR K ck ck ck K k k k ck ck ck ck ck ck ck ck ck ck k OR KOR R R K f 


/* (7) handshake complete --- send HTTP request over SSL */ 
[AEKk k k k k OK K K K K K K K K K KOK K KOK K K KO KOR K KOK R K ck k K KOK KOR ck ck ck KOK ck ck K KOR OR K RK R R K f 


sprintf (host_header,"Host: %s:443NrNn",hostname); 
strcpy(outbuf,"GET / HTTP/1.0\r\n"); 
strcat(outbuf,host header); 
strcat(outbuf,"Connection: closeNrNn") 

( 


strcat(outbuf,"VXrin") 
err - SSL write(ssl, outbuf, strlen(outbuf)); 
shutdown (sd, 1); /* send EOF to server */ 


printf("(7) sent HTTP request over encrypted channel: M nMn$sWMn",outbuf); 


/ k k k 1k k k k k Kk k k k Kk k k K K K KOK K K KOK K K KOR K R KOR K ko ko ko k KOR OR KOR R OR e R OR K KO S 


/* (8) read back HTTP response from the SSL stack */ 
/ k k k k k Ck k k k K k K K K K K K k ck K K KOR K KOK R KO R KOR ck K KOR ck KOR ck ck ck ck kk sk OR K K f 


err = SSL read(ssl, inbuf, sizeof(inbuf) = 1); 
inbuf[err] = 'N0'; 
printf ("(8) got back $d bytes of HTTP response:WMnWMn$sWMn",err,inbuf); 


[EEKE Ck Ck kk kk kk kc kk ke ko kk kk k Ck kk kk kk kk ok ke ke ke ke ke ke e e e e ee e x f 


/* (9) all done, so close connection & clean up */ 
J[ FCKCKCKCK Ck Ck Ck Ck kk kk kk ke ke ko ko kk k k kk K k kk ko ko koe ke ke ke ke ke ke ke e e e e e e e x f 


SSL shutdown(ssl); 
close (sd); 

SSL free (ssl); 
SSL CTX free (ctx); 





printf("(9) all done, cleaned up and closed connection\n\n") 


) 


这 个 例子 是 在 Sun Solaris 上 面 编译 运行 的 ， 但 它 说 明了 SSL 在 很 多 OS 平台 上 的 工 





作 原 理 。 由 于 OpenSSL 提供 了 一 些 强 有 力 的 特性 ， 包 括 所 有 加 密 、 
理 在 内 的 整个 程序 都 可 以 在 一 个 儿 页 左右 的 C 程序 中 实现 。 


下 面 按 部 分 分 析 下 这 个 程序 。 
。 程序 的 顶端 包含 了 一 些 用 于 支持 TCP 联网 和 SSL 的 支撑 文件 。 








密 钥 以 及 证 书 


fas 


FE 


n 





。 第 1 部 分 通过 调用 ssr_crx new 创建 了 本 地 上 下 文 ， 以 记录 握手 参数 及 与 SSL 


他 状态 。 


。 2 部 分 通过 Unix 的 gethostbyname 国 数 将 (由 一 we 





AGHLESRURT IP 地 址 。 基 他 平台 可 能 会 通过 其 他 方式 来 提供 


供 的 
i 


) 输 
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第 3 部 分 通过 创建 本 地 套 接 字 、 设 置 远 端 地 址 信息 并 连接 到 远 端 服务 器 ， 建 立 了 
一 条 到 服务 器 端口 443 的 TCP 连接 。 

一 旦 TCP 连接 建立 起 来 ， 就 用 ssL new 和 ssL sec fd 将 SSL 层 附 加 到 TCP 
连接 之 上 ， 并 调用 ssh connect 与 服务 器 进行 SSL 握手 。 第 4 部 分 完成 时 ， 我 
们 就 建立 了 一 个 已 选 好 密码 且 交 换 过 证 书 的 可 运行 的 SSL 信道 。 

第 5 部 分 打印 了 选中 的 批量 加 密 密 码 值 。 

第 6 部 分 打印 了 服务 器 回 送 的 X.509 证 书 中 包含 的 部 分 信息 ， 其 中 包括 与 证 书 持 
有 者 和 颁发 证 书 的 组 织 有 关 的 信息 。OpenSSL 库 没 有 对 服务 器 证 书 中 的 信息 作 
任何 特殊 的 处 理 。 实 际 的 SSL 应 用 程序 ， 比 如 Web 浏览 器 会 对 证 书 进 行 一 些 完 
整 性 检查 ， 以 确保 证 书 是 正确 签发 的 ， 且 是 来 自 正 确 主 机 的 。 我 们 在 14.7.6 节 讨 
论 了 浏览 器 对 服务 器 证 书 所 做 的 处 理 。 

此 时 ， 我 们 的 SSL 连接 就 已 经 可 以 用 于 安全 数据 的 传输 了 。 在 第 7 部 分 中 ， 用 
SSL write 在 SSL 信道 上 发 送 了 简单 的 HTTP 请 求 GET / HTTP/1.0， 然 后 关闭 
了 连接 的 输出 端 。 

在 第 8 部 分 中 ， 用 sst reaa 从 连接 上 读 回 响应 ， 并 将 其 打印 到 屏幕 上 。SSL 层 
负责 所 有 的 加 密 和 解密 工作 ， 因 此 可 以 直接 读 写 普 通 的 HTTP 命令 。 

最 后 ， 在 第 9 部 分 进行 了 一 些 清理 工作 。 


























更 多 与 OpenSSL 库 有 关 的 信息 请 参见 http://www.openssl.org。 


14.8.3 执行 OpenSSL 客 户 端 





下 面 显 示 了 指向 安全 服务 器 时 这 个 简单 HTTP 客户 端的 输出 。 在 这 个 例子 中 ， 客 户 
端 指向 了 摩根 士 丹 利 的 在 线 证 券 主页 。 在 线 交 易 公 司 都 在 广泛 使 用 HTTPS。 





% https client clientsl.online.msdw.com 
(1) SSL context initialized 


(2) 'clientsl.online.msdw.com' has IP address'63.151.15.11! 
(3) TCP connection open to host 'clientsl.online.msdw.com', port 443 


(4) SSL endpoint created & handshake completed 








(5) SSL connected with cipher: DES-CBC3-MD5 
(6) server's certificate was received: 


subject: /C=US/ST=Utah/L=Salt Lake City/O=Morgan Stanley/OU-Online/CN- 
clientsl.online.msdw.com 
issuer: /C-US/O-RSA Data Security, Inc./OU-Secure Server Certification 
Authority 
(7) sent HTTP request over encrypted channel: 
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GET / HTTP/1.0 
Host: clientsl.online.msdw.com:443 
Connection: close 


(8) got back 615 bytes of HTTP response: 


HTTP/1.1 302 Found 

Date: Sat, 09 Mar 2002 09:43:42 GMT 

Server: Stronghold/3.0 Apache/1.3.14 RedHat/3013c (Unix) mod ss1/2.7.1 OpenSSL/0.9.6 
Location: https://clients.online.msdw.com/cgi-bin/ICenter/home 
Connection: close 

Content-Type: text/html; charset-iso-8859-1 


<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN"» 

«HTML»«HEAD-» 

«TITLE»2302 Found</TITLE> 

«/HEAD»«BODY» 

«Hl1»Found«c/H1» 

The document has moved «A HREF-"https://clients.online.msdw.com/cgi-bin/ICenter/ 
home"»herec/A».«P» 

«HR» 

«ADDRESS»Stronghold/3.0Apache/1.3.14 RedHat/3013c Server at clientsl.online.msdw.com 
Port 443«/ADDRESS» 

«/BODY»«/HTML» 





(9) all done, cleaned up and closed connection 


RRR TWE 4 HB, mA T — RITIRI SSL EB, à 这 样 它 就 可 以 查询 
连接 的 状态 ， 选 择 参数 ， 检 查 服 务 器 证 书 了 。 


在 这 个 例子 中 ， 客 户 端 和 服务 器 对 DES-CBC3-MDS 批量 加 密 密 码 进行 了 沟通 。 你 
还 能 看 到 服务 器 站 点 证 书 属于 美国 犹他 州 盐湖 城 的 摩根 士 丹 利 组 织 。 证 书 由 RSA 
数据 安全 组 织 授 予 ， 主 机 名 为 clients1l.online.msdw.com， 与 请 求 相符 。 


只 要 建立 起 了 SSL 信道 ， 并 且 客 户 端 对 站 点 的 证 书 没 有 异议 ， 就 可 以 通过 安全 信 
道 来 发 送 其 HTTP 请 求 了 。 在 我 们 这 个 例子 中 ， 客 户 端 发 送 了 一 条 简单 的 “GET / 
HTTP/1.0” HTTP 请 求 ， 并 收 到 了 302 Redirect 响应 ， 请 求 用 户 去 获取 另 一 个 URL, 


` ` `> * $ ri ^ E= 
14.9 通过 代理 以 隧道 形式 传输 安全 流量 
客户 端 通常 会 用 Web 代理 服务 器 (参见 第 6 章 ) 代表 它们 来 访问 Web 服务 器 。 比 
如 ， r s S RA à 共 因 特 网 的 安全 边界 上 放置 一 个 代理 (参见 图 
14-19)。 代 理 是 防火 墙 路 由 器 唯一 允许 进行 HTTP 流量 交换 的 设备 ， 它 可 能 会 进行 
病毒 检测 或 其 他 的 内 容 控 制 工作 。 


但 只 要 客户 端 开 始 用 服务 器 的 公开 密 钥 对 发 往 服务 器 的 数据 进行 加 密 ， 代 理 就 再 也 
不 能 读 取 HTTP 首部 了 ! 代理 不 能 读 取 HTTP 首部 ， 就 无 法 知道 应 该 将 请 求 转向 何 
处 了 (参见 图 14-20 ) 。 























安全 HTTP | 351 








334 














公共 因特网 




















14-19 公司 防火 墙 代理 








Li 


client17.mycompany.com pro xy.mycompany com www.cajun-gifts.com 





Done pc r6ouydoiwesregidfjwvd76WetiT6figz8rhdi9 
8182yr87pfdy72y87193836PDUyqe719eyty3g6ee98y8787 
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图 14-20 ”代理 无 法 转发 加 密 请 求 


为 了 使 HTTPS 与 代理 配合 工作 ， 要 进行 儿 处 修改 以 告知 代理 连接 到 何 处 。 一 种 常 
用 的 技术 就 是 HTTPS SSL 隧道 协议 。 使 用 HTTPS 隧道 协议 ， 客 户 端 首 先 要 告知 代 
理 ， 它 想 要 连接 的 安全 主机 和 端口 。 这 是 在 开始 加 密 之 前 ， 以 明文 形式 告知 的 ， 所 
以 代理 可 以 理解 这 条 信息 。 


HTTP 通过 新 的 名 为 CONNECT 的 扩展 方法 来 发 送 明 文 形式 的 端点 信息 。CONNECcT J; 
法 会 告诉 代理 ， 打 开 一 条 到 所 期 望 主机 和 端口 号 的 连接 。 这 项 工作 完成 之 后 ， 直 接 
在 客户 端 和 服务 器 之 间 以 隧道 形式 传输 数据 。coNNECT 方法 就 是 一 条 单行 的 文本 命 
令 ， 它 提供 了 由 冒号 分 隔 的 安全 原始 服务 器 的 主机 名 和 端口 号 。host :port 后 面 跟 
着 一 个 空格 和 HTTP 版 本 字符 串 ， 再 后 面 是 CRLF。 接 下 来 是 零 个 或 多 个 HTTP 请 
求 首 部 行 ， 后 面 跟着 一 个 空 行 。 空 行 之 后 ， 如 果 建 立 连 接 的 担 手 过 程 成 功 完成 ， 就 
可 以 开始 传输 SSL 数据 了 。 下 面 是 一 个 例子 : 


CONNECT home.netscape.com:443 HTTP/1.0 
User-agent: Mozilla/1.1N 














«raw SSL-encrypted data would follow here...» 
在 请 求 中 的 空 行 之 后 ， 客 户 端 会 等 待 来 自 代 理 的 响应 。 代 理会 对 请 求 进行 评估 ， 确 
保 它 是 有 效 的 ， 而 且 用 户 有 权 请 求 这 样 一 条 连接 。 如 果 一 切 正常 ， 代 理会 建立 一 条 
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到 目标 服务 器 的 连接 。 如 果 成 功 ， 就 向 客户 端 发 送 一 条 200 Connection Established 响应 。 


HTTP/1.0 200 Connection established 
Proxy-agent: Netscape-Proxy/1.1 


更 多 有 关 安 全 隧道 和 安全 代理 的 信息 ， 请 回顾 8.5 T, 


14.10 ”更 多 信息 

安全 和 密码 问题 是 非常 重要 ， 也 非常 复杂 的 问题 。 如 果 想 学 习 更 多 有 关 HTTP 安全 
性 、 数 字 加 密 技术 、 数 字 证 书 以 及 公开 密 钥 基 础 设施 方面 的 内 容 ， 可 以 从 下 面 这 几 
个 地 方 开始 。 








14.10.1 HTTP 安 全 性 


° Web security, Privacy & Commerce" ((Web 安全 与 电子 商务 》) 


Simson Garfinkel xà, O'Reilly & Associates 公司 。 这 是 Web 安全 以 及 SSL/TLS 
和 数字 证 书 方面 最 好 、 最 可 读 的 入 门 型 书籍 之 一 。 

http://www .ietf.org/rfc/rfc2818.txt 

RFC 2818, “HTTP Over TLS” (“TLS 上 的 HTTP”), 说 明了 如 何在 SSL 的 后 继 
协议 一 一 TLS 协议 之 上 实现 安全 HTTP。 


http://www ietf.org/rfc/rfc2817.txt 

RFC 2817, "Upgrading to TLS Within HTTP/1.1" (“£ HTTP/1.1 中 升级 到 TLS”), 
说 明了 如 何 使 用 HTTP/1.1 中 的 升级 机 制 P TCP 连接 上 启动 TLS。 这 样 非 
安全 和 安全 HTTP 流量 就 可 以 共享 相同 的 知名 端口 了 (在 这 种 情况 下 ， 使 用 的 是 
http: 的 80 端口 ， 而 不 是 https: 的 443 端口 )。 “P 虚拟 主机 技术 。 这 样 ， 使 
用 一 台 HTTP+TLS 服务 器 就 可 以 区 分 出 发 往 同 一 个 中 地址 上 不 同 主机 名 的 流量 了 。 











14.10.2 SSL 与 TLS 


http://www ietf.org/rfc/rfc2246.txt 

RFC 2246, “The TLS Protocol Version 1.0" (“TLS 协议 版 本 1.0"), 对 (SSL 的 
后 继 协 议 ) TLS 协议 的 版 本 1.0 进行 了 规范 。TLS 提供 了 因特网 上 通信 的 私密 性 。 
协议 允许 客户 端 /服务 器 应 用 程序 以 防止 窟 听 、 算 改 以 及 伪造 报 文 的 方式 进行 通信 。 

















http://developer.netscape. 5 ede eo ea htm 
“Introduction to SSL” (“SSL 简介 ”) 介绍 了 SSL 协议 。SSL 最 初 是 由 网 景 公司 





E13. 本 书 中 文 版 由 中 国电 力 出 版 社 出 版 。( 编 者 注 
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开发 的 ， 已 广泛 应 用 于 万 维 网 上 客户 端 和 服务 器 间 的 认证 及 加 密 通信 。 
http://www.netscape.com/eng/ssl3/draft302.txt 
“The SSL Protocol Version 3.0” (“SSL 协议 版 本 3.0”) 是 网 景 公 司 1996 年 的 SSL 规范 。 


http://developer.netscape.com/tech/security/ssl/howitworks.html 

"How SSL Works" (“SSL 是 如 何 工 作 的 ”) 是 网 景 公 司 对 密 钥 加 密 技术 的 介绍 。 
http://www.openssl.org 

OpenSSL 项 目 是 一 个 合作 开发 项 目 ， 目 的 是 开发 一 个 强壮 的 、 全 功能 的 、 商 业 
级 开源 工具 集 ， 以 实现 安全 套 接 字 层 (SSL v2/v3) 和 传输 层 安 全 (TLS v1) 协 
议 以 及 强大 的 通用 密码 库 。 这 个 项 目 由 全 世界 范围 内 的 志愿 者 社区 管理 ， 那 些 
志愿 者 通过 因特网 进行 交流 、 制 定 计划 、 开 发 OpenSSL 工具 集 并 撰写 相关 文档 。 
OpenSSL 基于 Eric A. Young 和 Tim J. Hudson 开发 的 优秀 SSLeay 库 。OpenSSL 
工具 集 有 一 个 Apache 风格 的 许可 证 ， 这 基本 上 就 意味 着 只 要 遵循 一 些 基 本 的 许 
可 条 件 ， 就 可 免费 获得 并 将 其 用 于 商业 或 非 商业 目的 。 























14.10.3 ”公开 密 钥 基础 设施 


http://www.ietf.org/html.charters/pkix-charter.html 
IETF PKIX 工作 组 组 建 于 1995 年 ,目的 是 开发 一 些 因特网 标准 ， 支 持 基于 
X.509 的 公开 密 钥 基础 设施 。 这 是 对 此 小 组 活动 很 好 的 总 结 。 


http://www.ietf.org/rfc/rfc2459.txt 

RFC 2459, “Internet X.509 Public Key Infrastructure Certificate and CRL Profile” 
(“因特网 X.509 公开 密 钥 基 础 设施 证 书 及 CRL 概述 ”")， 详 细 介绍 了 X.509 v3 数字 
证 书 ; 





14.10.4 ”数字 密码 


Applied Cryptography”【(《 应 用 密码 学 》) 

Bruce Schneier #, John Wiley & Sons 公司 出 版 。 这 是 为 实现 者 编写 的 经 典 密码 
ny 

学 书籍 。 





The Code Book: The Science of Secrecy from Ancient Egypt to Quantum Cryptography” 
(密码 故事 一 人 类 智力 的 另类 较量 》) 

Simon Singh X, Anchor Books 公司 出 版 。 这 是 一 本 有 趣 的 密码 学 入 门 书籍 。 它 
不 是 为 技术 专家 编写 的 ， 而 是 一 本 生动 的 密码 学 历史 读物 。 











注 14: 本 书 中 文 版 由 机 械 工业 出 版 社 出 版 。( 编 者 注 ) 


注 15: 本 书 中 文 版 由 海南 出 版 社 出 版 。( 编 者 注 ) 
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第 四 部 分 





实体 、 编 码 和 国际 化 





第 四 部 分 讲述 的 内 容 都 与 HITP 报 文 的 实体 主体 和 被 实体 主体 作为 货物 承载 的 内 容 
^X. 





。 第 15 章 讲述 了 HTTP 内 容 的 格式 和 语法 。 

。 第 16 章 探讨 了 人 允许 世界 各 地 的 人 们 相互 交换 内 容 的 各 种 Web 标准 ， 这 些 内 容 由 
各 种 不 同 语言 和 不 同 字符 集 构 成 。 

。 第 17 章 讲解 了 各 种 用 于 协商 可 接受 内 容 的 机 制 。 
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每 天 都 有 数 以 亿 计 的 各 种 媒体 对 象 经 由 HTTP 传送 ， 如 图 像 、 文 本 、 影 片 以 及 软件 
程序 等 。 只 要 你 能 叫 出 名 字 ，HTTP 就 可 以 传送 。HTTP 还 会 确保 它 的 报 文 被 正确 
传送 、 识 别 、 提 取 以 及 适当 处 理 。 具 体 说 来 ，HTTP 要 确保 它 所 承载 的 “货物 ” 满 
足以 下 条 件 。 








° 可 以 被 正确 地 识别 (通过 content-Type 首 部 说 明 媒 体格 式 ，content- 
Language 首部 说 明 语 言 )， 以 便 浏 览 器 和 其 他 客户 端 能 正确 处 理 内 容 。 

可 以 被 正确 地 解 包 (通过 content-Length 首部 和 content-Encoding 首部 )。 
° 是 最 新 的 〈 通 过 实体 验证 码 和 缓存 过 期 控制 ) 

。 符合 用 户 的 需要 (基于 Accept 系列 的 内 容 协商 首部 ) 

° 在 网 络 上 可 以 快速 有 效 地 传输 (通过 范围 请 求 、 差 异 编码 以 及 其 他 数据 压缩 方法 ) 
。 完整 到 达 、 未 被 算 改 (通过 传输 编码 首部 和 content -MD5 校 验 和 首部 ) 


为 了 实现 这 些 目标 ，HTTP 使 用 了 完善 的 标签 来 描述 承载 内 容 的 实体 。 


本 章 讨论 各 种 实体 、 与 它们 相关 的 实体 首部 以 及 它们 是 如 何 运 作 来 传送 网 站 “货物 ” 
的 。 我 们 将 展示 HTTP 是 如 何 提 供 必 需 的 内 容 大 小 、 类 型 以 及 编码 的 。 我 们 还 要 解 
Ë HTTP 实体 的 某 些 更 复杂 和 强大 的 特性 ， 比 如 范围 请 求 、 差 异 编码 、 摘 要 以 及 分 
块 编码 等 。 


本 章 涵盖 了 下 列 内 容 。 


。 作为 HTTP 数据 的 容器 ，HTTP 报 文 实体 有 哪些 格式 和 行为 。 

。 HTTP 如 何 描述 实体 的 主体 大 小 ，HTTP 为 确定 大 小 制定 了 哪些 规则 。 

。 为 了 使 客户 端正 确 处 理 内 容 ， 使 用 了 哪些 实体 首部 来 描述 内 容 的 格式 、 字 母 和 
语言 < 

° 可 逆 的 内 容 编码 ， 发 送 方 可 以 在 发 送 之 前 用 它 来 转换 内 容 的 数据 格式 ， 使 其 占用 

更 小 的 空间 ， 或 者 更 安全 。 

传输 编码 和 分 块 编码 。 传 输 编 码 可 以 改变 HTTP 传输 数据 的 方式 ， 以 改善 某 些 类 

型 内 容 的 通信 能 力 。 分 块 编码 是 一 种 特殊 的 传输 编码 ， 它 把 数据 切 分 为 若干 块 ， 

这 样 可 以 更 可 靠 地 传输 长 度 未 知 的 内 容 。 

° 标记 、 标 签 、 时 间 以 及 校 验 和 等 一 整套 机 制 ， 帮 助 客户 端 获 取 所 请 求 内 容 的 最 新 
版 本 。 

。 可 用 作 内 容 版 本 号 的 验证 码 ， 网 站 应 用 可 以 通过 它 确 保 接收 最 新 的 内 容 。 还 有 设 
计 用 来 控制 对 象 新 鲜 度 的 各 种 HTTP 首部 字段 。 

。 范围 ， 在 恢复 中 断 的 传输 方面 很 有 用 。 

° HTTP 差异 编码 扩展 ， 它 使 客户 端 只 需要 请 求 网 页 中 和 前 一 次 相 比 有 改变 的 部 分 。 

。 实体 主体 的 校 验 和 , 可 以 用 来 检测 经 过 若干 代理 之 后 , 实体 的 内 容 是 否 发 生 了 改变 。 
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15.1 报 文 是 箱子 ， 实 体 是 货物 


如 果 把 HTTP 报 文 想象 成 因特网 货运 系统 中 的 箱子 ， 那 么 HTTP 实体 就 是 报 文中 实 
际 的 货物 。 图 15-1 展示 了 一 个 简单 的 实体 ， 装 在 HTTP 响应 报 文中 。 














HTTP/1.0 200 OK 
Server: Netscape-Enterprise/3.6 
Date: Sun, 17 Sep 2000 00:01:05 GMT 


Content-length: 18 





Hi! I'm a message! 实体 主体 











图 15-1 ” 报 文 实体 由 实体 首部 和 实体 主体 组 成 


实体 首部 指出 这 是 一 个 纯 文本 文档 (Content-Type:text/plain), 它 只 有 18 个 
字 节 长 (Content-Length:18)。 和 往常 一 样 ， 一 个 空白 行 (CRLF) 把 首部 字段 
同 主体 的 开始 部 分 分 隔 开 来 。 


HTTP 实体 首部 (参见 第 3 章 ) 描述 了 HTTP 报 文 的 内 容 。HTTP/1.1 版 定义 了 以 下 
10 个 基本 字体 首部 字段 。 





* Content-Type 


实体 中 所 承载 对 象 的 类 型 。 


° Content-Length 


所 传送 实体 主体 的 长 度 或 大 小 。 





° Content-Language 


与 所 传送 对 象 最 相配 的 人 类 语言 。 


* Content-Encoding 


对 象 数据 所 做 的 任意 变换 〈 比 如， 压缩 ) 。 








° Content-Location 


一 个 备用 位 置 ， 请 求 时 可 通过 它 获 得 对 象 。 


° Content -Range 
如 果 这 是 部 分 实体 ， 这 个 首部 说 明 它 是 整体 的 哪个 部 分 。 


° Content -MD5 


实体 主体 内 容 的 校 验 和 。 
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° Last-Modified 


所 传输 内 容 在 服务 器 上 创建 或 最 后 修改 的 日 期 时 间 。 


° Expires 


实体 数据 将 要 失效 的 日 期 时 间 。 


° Allow 


该 资源 所 允许 的 各 种 请 求 方法 ， 例 如，GET fJ HEAD, 

° ETag 
这 份 文档 特定 实例 (参见 15.7 节 ) 的 唯一 验证 码 。ETag 首部 没有 正式 定义 为 实 
体 首 部 ， 但 它 对 许多 涉及 实体 的 操作 来 说 ， 都 是 一 个 重要 的 首部 。 





Cache-Control 
指出 应 该 如 何 缓存 该 文档 。 和 ETag 首部 类 似 ，cache-Control 首部 也 没有 正 
式 定义 为 实体 首部 。 


实体 主体 

实体 主体 中 就 是 原始 货物 啦 。 任何 其 他 描述 性 的 信息 都 包含 在 首部 中 。 因 为 货 
物 (也 就 是 实体 主体 ) 只 是 原始 数据 ， 所 以 需要 实体 首部 来 描述 数据 的 意义 。 例 
ZH, Content-Type 实体 首部 告诉 我 们 如 何 去 解 释 数据 (是 图 像 还 是 文本 等 )， 而 
Content-Encoding 实体 首部 告诉 我 们 数据 是 不 是 已 被 压缩 或 者 重 编码 。 我 们 将 在 
随后 的 小 节 中 讨论 所 有 这 些 方面 及 更 多 的 内 容 。 


首部 字段 以 一 个 空白 的 CRLF 行 结束 ， 随 后 就 是 实体 主体 的 原始 内 容 。 不 管内 容 是 
什么 ， 文 本 或 二 进 制 的 、 文 档 或 图 像 、 压 缩 的 或 未 压缩 的 、 英 语 、 法 语 或 日 语 ， 都 
紧 随 这 个 CRLF 之 后 。 


图 15-2 展示 了 两 个 实际 的 HTTP 报 文 的 例子 。 一 个 携带 着 文本 实体 ， 另 一 个 承载 的 
是 图 像 实 体 。 十 六 进 制 的 数值 中 展示 的 是 报 文 的 实际 内 容 。 


。 在 图 15-2a 中 ， 实 体 主 体 从 第 65 个 字 节 开始 ， 紧 随 首 部 末尾 的 CRLF。 实 体 主体 
中 包含 了 “Hil Im a message!” XAA ASCII 编码 字符 。 

。 在 图 15-2b 中 ， 实 体 主体 从 第 67 字 节 开始 。 实 体 主 体 包 含 了 一 个 GIF 格式 图 像 
的 二 进 制 内 容 。GIF 文件 以 6 个 字 节 的 版 本 标志 开头 ， 后 面 是 16 位 的 宽度 和 16 
位 的 高 度 。 可 以 在 实体 主体 中 直接 看 到 这 3 项 内 容 。 


























注 1: 如 果 有 content-Encoding 首 部 的 话 , 实 体 主体 的 内 容 就 已 经 被 指定 的 内 容 编 码 算法 进行 过 编码 了 ， 
第 一 个 字 节 就 是 编码 〈 比 如 ， 压 缩 ) 后 的 货物 的 第 一 个 字 节 。 











360 | 第 15 章 





(OHTTP 响 应 报 文中 的 textplain 类 型 的 实体 




















HTTP/1.0 200 OK 00: 4854 5450 2f31 2e30 2032 3030 204f 4bod [HTTP/1.0 200 OK. 
Content-type: text/plain 16: 0a43 6f6e 7465 6e74 2d74 7970 653a 2074 -Content -type: t 
Content-length: 18 32: 6578 742f 706c 6169 6e0d 0a43 6f6e 7465 Jlext/plain..Contgd 

48: 6e74 2d6c 656e 6774 683a 2031 380d 0a0d mt-length: 18... 
Hi! I'm a message! 64:,0a48 6921 2049 276d 2061 206d 6573 7361 |JHi! I'm a messa 














9f 6768 210a Eii 
首部 末尾 的 LF (0x0A= <LF>) 主体 内 容 的 开始 (0x48= "H") 




















(DHTTP 响 应 报 文中 的 image/gif 类 型 的 实体 











HTTP/1.0 200 OK 00: 4854 5450 2f31 2e30 2032 3030 204f 4b0d [HTTP/1.0 200 OK. 

Content-Type: image/gif 16: 0a43 6f6e 7465 6e74 2d74 7970 653a 2069 j|.Content-type: i| 

- h: 32: 6d61 6765 2£67 6966 0d0a 436f 6e74 656e Qmmage/gif..Conten 
Content-Length: 34867 

48: 742d 6c65 6e67 7468 3a20 3334 3836 370d |t-length: 34867. 

1 64: Oa0d,0a47 4946 3837 6jp7 03b6 o2j£7 0000 |...|BIF87a'...... 

















fe04 S402 0404 EE 
| 96: 42a£& a4ca f484 8284 dce2|dc9c a2Qc 444a B............- 
-8 
首部 末 主体 内 图像 宽度 图 像 高 度 
| 尾 的 LF — 容 的 开始 

(Ox0A= <LF>) ("GIF87a")(0x0227- 551) (0x0206- 518) 





| 80: 0402/0404 zm 8482 O4fc 






































图 15-2 ”实际 报 文 内 容 〈 紧 随 空白 的 CRLF 之 后 的 原始 报 文 内 容 ) 的 十 六 进 制 转 储 显示 


15.2 Content-Length: 实体 的 大 小 


Content-Length 首部 指示 出 报 文中 实体 主体 的 字 节 大 小 。 这 个 大 小 是 包含 了 所 有 
内 容 编码 的 ， 比如 ， 对 文本 文件 进行 了 gzip 压缩 的 话 ， Content-Length 首部 就 是 
压缩 后 的 大 小 ， 而 不 是 原始 大 小 。 


除非 使 用 了 分 块 编码 ， 否 则 content-Length 首部 就 是 带 有 实体 主体 的 报 文 必须 使 
用 的 。 使 用 Content-Length 首部 是 为 了 能 够 检测 出 服务 器 崩溃 而 导致 的 报 文 截 
尾 ， 并 对 共享 持久 连接 的 多 个 报 文 进行 正确 分 段 。 


15.2.1 WAE 

HTTP 的 早期 版 本 采用 关闭 连接 的 办 法 来 划 定 报 文 的 结束 。 但 是 ， 没 有 Content- 
Length 的 话 ， 客 户 端 无 法 区 分 到 底 是 报 文 结束 时 正常 的 连接 关闭 ， 还 是 报 文 传输 
中 由 于 服务 器 月 江 而 导致 的 连接 关闭 。 客 户 端 需要 通过 content-Length 来 检测 
报 文 截 尾 。 


报 文 截 尾 的 问题 对 缓存 代理 服务 器 来 说 尤其 严重 。 如 果 缓 存 服 务 器 收 到 被 截 尾 的 报 
文 却 没有 识别 出 截 尾 的话 ， 它 可 能 会 存储 不 完整 的 内 容 并 多 次 使 用 它 来 提供 服务 。 
缓存 代理 服务 器 通常 不 会 为 没有 显 式 Content-Length 首部 的 HTTP 主体 做 缓存 ， 
以 此 来 减 小 缓存 已 截 尾 报 文 的 风险 。 
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15.2.2 ”错误 的 Content-Length 

错误 的 Content-Length 比 缺 少 Content-Length 还 要 粳 糕 。 因 为 基 些 早期 的 客 
户 端 和 服务 器 在 Content-Length 计算 上 存在 一 些 众 所 周知 的 错误 ， 有 些 客户 端 、 
服务 器 以 及 代理 中 就 包含 了 特别 的 算法 ， 用 来 检测 和 纠正 与 有 和 缺陷 服务 器 的 交互 过 
程 。HTTP/1.1 规定 用 户 Agent 代理 应 该 在 接收 且 检 测 到 无 效 长 度 时 通知 用 户 。 








15.2.3 Content-Length 与 持久 连接 

Content-Length 首部 对 于 持久 连接 是 必 不 可 少 的 。 如 果 响 应 通过 持久 连接 传送 ， 
就 可 能 有 另 一 条 HTTP 响应 紧 随 其 后 。 客 户 端 通过 Content-Length 首部 就 可 以 知 
道 报 文 在 何 处 结束 ， 下 一 条 报 文 从 何 处 开始 。 因 为 连接 是 持久 的 ， 客 户 端 无 法 依赖 
连接 关闭 来 判别 报 文 的 结束 。 如 果 没 有 Content-Length 首部 ，HTTP 应 用 程序 就 
不 知道 某 个 实体 主体 在 哪里 结束 ， 下 一 条 报 文 从 哪里 开始 。 


我 们 将 在 15.6 节 看 到 ， 有 一 种 情况 下 ， 使 用 持久 连接 时 可 以 没有 Content-Length 
首部 ， 即 采用 分 块 编码 (chunked encoding) 时 。 在 分 块 编码 的 情况 下 ， 数 据 是 分 为 
一 系列 的 块 来 发 送 的 ， 每 块 都 有 大 小 说 明 。 哪 怕 服 务 器 在 生成 首部 的 时 候 不 知道 整 
个 实体 的 大 小 (通常 是 因为 实体 是 动态 生成 的 )， 仍然 可 以 使 用 分 块 编码 传输 若干 已 
知 大 小 的 块 。 



































15.2.4 ”内容 编码 

HTTP 允许 对 实体 主体 的 内 容 进 行 编码 ， 比 如 可 以 使 之 更 安全 或 进行 压缩 以 节省 空 
间 (本 章 稍 后 将 详细 解释 压缩 的 问题 )。 如 果 主 体 进行 了 内 容 编 码 ，content-Length 
首部 说 明 的 就 是 编码 后 (encoded) 的 主体 的 字 节 长 度 ， 而 不 是 未 编码 的 原始 主体 的 
长 度 。 


某 些 HTTP 应 用 程序 在 这 方面 搞 错 了 ， 发 送 的 是 数据 编码 之 前 的 大 小 ， 这 会 导致 严 
重 的 错误 ， 尤 其 是 用 在 持久 连接 上 。 不 笠 的 是 ，HTTP/1.1 规范 中 没有 首部 可 以 用 来 
说 明 原 始 的 、 未 编码 的 主体 的 长 度 ， 这 就 让 客户 端 难以 验证 解码 过 程 的 完整 性 。” 


15.2.5 ”确定 实体 主体 长 度 的 规则 
下 面 列 出 的 规则 说 明了 在 若干 不 同 的 情况 下 如 何 正 确 计 算 主 体 的 长 度 和 结束 位 置 。 
这 些 规则 应 当 按 顺 序 应 用 ， 谁 先 匹配 就 用 谁 。 











注 2: Content-MD5 首部 也 不 行 ， 它 用 来 说 明文 档 的 128 位 MD5 值 ， 但 这 也 是 针对 编码 后 的 文档 的 。 本 
章 后 面 会 说 明 Content -MD5 首部 。 
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(1) 


— 
+ 
— 


— 
CA 
— 


如 果 特 定 的 HTTP 报 文 类 型 中 不 允许 带 有 主体 ， 就 忽略 Content-Length 首 
部 ， 它 是 对 (没有 实际 发 送出 来 的 ) 主体 进行 计算 的 。 这 种 情况 下 ，content - 
Length 首部 是 提示 性 的 ， 并 不 说 明 实 际 的 主体 长 度 。( 考 虑 不 周 的 HTTP 应 用 
程序 会 认为 有 了 Content-Length 就 有 主体 存在 ， 这 样 就 会 出 问题 。) 


最 重要 的 例子 就 是 HEAD 响应 。HEAD 方法 请 求 服 务 器 发 送 等 价 的 GET 请 
求 中 会 出 现 的 首部 ， 但 不 要 包括 主体 。 因 为 对 GET 的 响应 会 带 有 Content- 
Length 首部 ， 所 以 HEAD 响应 里 面 也 有 ; 但 和 GET 响应 不 同 的 是 ，HEAD 
响应 中 不 会 有 主体 。1XX、204 以 及 304 响应 也 可 以 有 提示 性 的 Content- 
Length 首部 ， 但 是 也 都 没有 实体 主体 。 那 些 规定 不 能 带 有 实体 主体 的 报 文 ， 
不 管 带 有 什么 首部 字段 ， 都 必须 在 首部 之 后 的 第 一 个 空 行 终止 。 


如 果 报 文中 含有 描述 传输 编码 的 Transfer-Encoding 首部 (不 采用 默认 的 
HTTP“ 恒 等 ”编码 ) ， 那 实体 就 应 由 一 个 称 为 “ 零 字 节 块 ”(zero-byte chunk) 
的 特殊 模式 结束 ， 除 非 报 文 已 经 因 连 接 关 闭 而 结束 。 我 们 将 在 本 章 后 面 讨论 传 
输 编 码 和 分 块 编 码 。 


如 果 报 文中 含有 Content-Length 首部 (并且 报 文 类 型 允许 有 实体 主体 )， 而 
且 没 有 非 恒 等 的 Transfer-Encoding 首部 字段 ， 那 么 Content-Length 的 值 
就 是 主体 的 长 度 。 如 果 收 到 的 报 文中 既 有 Content-Length 首部 字段 又 有 非 恒 
4*HJ Transfer-Encoding 首部 字段 ， 那 就 必须 忽略 content-Length， 因 为 
传输 编码 会 改变 实体 主体 的 表示 和 传输 方式 〈 因 此 可 能 就 会 改变 传输 的 字 刷 数 )。 


如 果 报 文 使 用 了 multipar/byteranges (多 部 分 / 字 节 范围 ) 媒体 类 型 ， 并 且 没 
有 用 Content-Length 首部 指出 实体 主体 的 长 度 ， 那 么 多 部 分 报 文中 的 每 个 衣 
分 都 要 说 明 它 自己 的 大 小 。 这 种 多 部 分 类 型 是 唯一 的 一 种 自 定 界 的 实体 主体 类 
型 ， 因 此 除非 发 送 方 知 道 接 收 方 可 以 解析 它 ， 否 则 就 不 能 发 送 这 种 媒体 类 型 。” 
如 果 上 面 的 规则 都 不 匹配 ， 实 体 就 在 连接 关闭 的 时 候 结 束 。 实 际 上 ， 只 有 服务 
器 可 以 使 用 连接 关闭 来 指示 报 文 的 结束 。 客 户 端 不 能 用 关闭 连接 来 指示 客户 端 
报 文 的 结束 ， 因 为 这 样 会 使 服务 器 无 法 发 回响 应 。” 




















为 了 和 使 用 HTTP/1.0 的 应 用 程序 兼容 ， 任 何 带 有 实体 主体 的 HTTP/1.1 请 求 都 必 
须 带 有 正确 的 Content-Length 首部 字段 (除非 已 经 知道 服务 器 兼容 HTTP/1.1)。 





注 3: 














因为 Range 首部 可 能 会 被 不 理解 多 部 分 / 字 节 范围 的 更 原始 的 代理 所 转发 ， 所 以 如 果 发 送 方 不 能 确 
定 接收 方 是 否 理解 这 种 自 定 界 的 格式 的 话 ， 就 必须 用 本 节 的 方法 (1). (3) 或 (5) 来 对 报 文 定 界 。 








iE 4: 














客户 端 可 以 使 用 半 关 闭 ， 也 就 是 只 把 连接 的 输出 端 关闭 ， 但 很 多 服务 器 应 用 程序 设计 的 时 候 没 有 考虑 
到 处 理 这 种 情况 ， 会 把 半 关 闭 当 作客 户 端 要 从 服务 器 断 开 连 接 来 处 理 。HTTP 没有 对 连接 管理 进行 良 
好 的 规范 。 详 情 请 参见 第 4 章 。 
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HTTP/1.1 规范 中 建议 对 于 带 有 主体 但 没有 Content-Length 首部 的 请 求 ， 服 务 器 
如 果 无 法 确定 报 文 的 长 度 ， 就 应 当 发 送 400 Bad Request 响应 或 411 Length Required 
响应 ， 后 一 种 情况 表明 服务 器 要 求 收 到 正确 的 Content-Length Erit. 


15.3 ”实体 摘要 


尽管 HTTP 通常 都 是 在 像 TCP/IP 这 样 的 可 靠 传 输 协议 之 上 实现 的 ， 但 仍 有 很 多 
素 会 导致 报 文 的 一 部 分 在 传输 过 程 中 被 修改 ， 比 如 有 不 兼容 的 转 码 代理 ， 或 者 中 间 
代理 有 误 ， 等 等 。 为 检测 实体 主体 的 数据 是 否 被 不 经 意 (或 不 希望 有 ) 地 修改 ， 发 
送 方 可 以 在 生成 初始 的 主体 时 ， 生 成 一 个 数据 的 校 验 和 ， 这 样 接收 方 就 可 以 通过 检 
查 这 个 校 验 和 来 捕获 所 有 意外 的 实体 修改 了 。- 


服务 器 使 用 content -ups 首部 发 送 对 实体 主体 运行 MD5 算法 的 结果 。 只 有 产生 响 
应 的 原始 服务 器 可 以 计算 并 发 送 content -MD5 首部 。 中 间 代 理 和 缓存 不 应 当 修改 或 
添加 这 个 首部 ， 否 则 就 会 与 验证 端 到 端 完 整 性 的 这 个 最 终 目 的 相 冲 突 。content -MD5 
首部 是 在 对 内 容 做 了 所 有 需要 的 内 容 编 码 之 后 ， 还 没有 做 任何 传输 编码 之 前 ， 计 算出 
来 的 。 为 了 验证 报 文 的 完整 性 ， 客 户 端 必须 先进 行 传输 编码 的 解码 ， 然 后 计算 所 得 到 
的 未 进行 传输 编码 的 实体 主体 的 MD5。 举 个 例子 吧 ， 如 果 一 份 文档 使 用 gzip 算法 进 
行 压缩 ， 然 后 用 分 块 编码 发 送 ， 那 么 就 对 整个 经 gzip 压缩 的 主体 进行 MD5 计算 。 


除了 检查 报 文 的 完整 性 之 外 ，MD5 还 可 以 当 作 散 列表 的 关键 字 ， 用 来 快速 定位 文档 
并 消除 不 必要 的 重复 内 容 存储 。 除 了 这 些 可 能 的 用 法 ， 一 般 不 常用 到 content -MD5 
首部 。 


作为 对 HTTP 的 扩展 ， 在 IETF 的 草案 中 提出 了 其 他 一 些 摘要 算法 。 这 些 扩展 建议 
增加 新 的 want-Digest 首部 ， 它 允许 客户 端 说 明 期 望 响 应 中 使 用 的 摘要 类 型 ， 并 
使 用 质量 值 来 建议 多 种 摘要 算法 并 说 明 优先 顺序 。 


15.4 媒体 类 型 和 字符 集 

Content-Type 首部 字段 说 明了 实体 主体 的 MIME 类 型 。 MIME 类 型 是 标准 化 的 
名 字 ， 用 以 说 明 作 为 货物 运载 实体 的 基本 媒体 类 型 (比如 : HTML 文件 、Microsoft 
Word 文档 或 是 MPEG 视频 等 )。 客 户 端 应 用 程序 使 用 MIME 类 型 来 解释 和 处 理 其 
内 容 。 
































注 5: 当然 ， 这 种 方法 对 同时 替换 报 文 主体 和 摘要 首部 的 恶意 攻击 无 效 。 这 只 是 为 了 检测 不 经 意 的 修改 。 对 
付 恶意 自 改 ， 需 要 使 用 别 的 机 制 ， 比 如 搞 要 认证 。 
注 6: 在 HEAD 请 求 中 ，content-Type 说 明 如 果 请 求 是 GET 时 ， 将 要 发 送 的 主体 的 类 型 。 
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Content-Type 的 值 是 标准 化 的 MIME 类 型 ， 都 在 互联 网 号 码 分 配 机 构 (Internet 
Assigned Numbers Authority, fi fk IANA) 中 注册 。MIME 类 型 由 一 个 主 媒体 类 
型 (比如; text, image 或 audio 等) 后 面 跟 一 条 和 斜 线 以 及 一 个 子 类 型 组 成 ， 子 类 
型 用 于 进一步 描述 媒体 类 型 。 表 15-1 中 列 出 了 一 些 content -Type 首部 中 常用 的 
MIME 类 型 。 附 录 D 中 列 出 了 更 多 的 MIME 类 型 。 


表 15-1 常用 媒体 类 型 









































媒体 类 型 描 xt 
text/html 实体 主体 是 HTML 文档 
text/plain 实体 主体 是 纯 文本 文档 
image/gif 实体 主体 是 GIF 格式 的 图 像 
image/jpeg 实体 主体 是 JPEG 格式 的 图 像 
audio/x-wav 实体 主体 包含 WAV 格式 声音 数据 
model/vrml 实体 主体 是 三 维 的 VRML 模型 
application/vnd.ms-powerpoint ”实体 主体 是 Microsoft PowerPoint 演示 文档 
multipart/byteranges 实体 主体 有 若干 部 分 ， 每 个 部 分 都 包含 了 完整 文档 中 不 同 的 字 节 范围 
message/http 实体 主体 包含 完整 的 HTTP 报 文 (参见 TRACE) 





要 着 重 注意 的 是 ，cContent -Type 首部 说 明 的 是 原始 实体 主体 的 媒体 类 型 。 例 如 ， 
如 果实 体 经 过 内 容 编码 的 话 ，content -Type 首部 说 明 的 仍 是 编码 之 前 的 实体 主体 
的 类 型 。 


15.41 文本 的 字符 编码 
Content-Type 首部 还 支持 可 选 的 参数 来 进一步 说 明 内 容 的 类 型 。charset (字符 
f) 参数 就 是 个 例子 ， 它 说 明 把 实体 中 的 比特 转换 为 文本 文件 中 的 字符 的 方法 : 


Content-Type: text/html; charset-iso-8859-4 


我 们 将 在 第 16 章 详 细 讨论 字符 集 。 


15.4.8 ”多 部 分 媒体 类 型 

MIME 中 的 multipart (多 部 分 ) 电子 邮件 报 文 中 包含 多 个 报 文 ， 它 们 合 在 一 起 作 
为 单一 的 复杂 报 文 发 送 。 每 一 部 分 都 是 独立 的 ， 有 各 自 的 描述 其 内 容 的 集 ; 不 同 的 
部 分 之 间 用 分 界 字符 串 连 接 在 一 起 。 

HTTP 也 支持 多 部 分 主体 。 不 过 ， 通 常 只 用 在 下 列 两 种 情形 之 一 : 提交 填写 好 的 表 
格 ， 或 是 作为 承载 若干 文档 片段 的 范围 响应 。 
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15.4.8 ”多 部 分 表格 提交 

当 提 交 填 写 的 HTTP 表格 时 ， 变 长 的 文本 字段 和 上 传 的 对 象 都 作为 多 部 分 主体 里 面 
独立 的 部 分 发 送 ， 这 样 表格 中 就 可 以 填写 各 种 不 同类 型 和 长 度 的 值 。 比 如 ， 你 可 能 
选择 用 昵称 和 小 照片 来 填写 询问 你 的 名 字 和 介绍 信息 的 表格 ， 而 你 的 朋友 可 能 填 了 
她 的 爹 名 并 在 介绍 信息 表 内 抱怨 了 一 堆 大 众 汽车 的 修理 问题 。 








HTTP 使 用 content-Type:multipart/form-data 或 Content-Type:multipart/ 


mixed 这 样 的 首部 以 及 多 部 分 主体 来 发 送 这 种 请 求 ， 举 例如 下 : 
Content-Type: multipart/form-data; boundary- [abcdefghijklmnopqrstuvwxyz] 


其 中 的 boundary 参数 说 明了 分 割 主体 中 不 同 部 分 所 用 的 字符 串 。 








349| 下 面 的 例子 展示 了 multipart/form-data 编码 。 假 设 我 们 有 这 样 的 表格 : 


N 








«FORM action-" http://server.com/cgi/handle" 
enctype-"multipart/form-data" 
method-"post"2 
«P» 
What is your name? <INPUT type="text" name-"submit-name"»«BR» 
What files are you sending? <INPUT type-"file" name-"files"-»«BR» 
<INPUT type="submit" value-"Send"» <INPUT type-"reset"- 
</FORM> 


如 果 用 户 在 文本 输入 字段 中 键入 Sally， 并 选择 了 文本 文件 essayfile.txt， 用 户 Agent 
代理 可 能 会 发 回 下 面 这 样 的 数据 : 





Content-Type: multipart/form-data; boundary=AaB03x 


--AaB03x 

Content-Disposition: form-data; name="submit-name" 

Sally 

--AaB03x 

Content-Disposition: form-data; name="files"; filename="essayfile.txt" 


Content-Type: text/plain 
..contents of essayfile.txt... 
--AaB03x-- 


如 果 用 户 还 选 了 另 一 个 (图像 ) 文件 imagefile.gif， 用 户 Agent 代理 可 能 像 下 面 这 样 


构造 这 个 部 分 : 





Content-Type: multipart/form-data; boundary=AaB03x 
--AaB03x 

Content-Disposition: form-data; name="submit-name" 
Sally 

--AaB03x 

Content-Disposition: form-data; name="files" 
Content-Type: multipart/mixed; boundary=BbC04y 





--BbC04y 
Content-Disposition: file; filename="essayfile.txt" 
Content-Type: text/plain 
..contents of essayfile.txt... 
--BbC04y 
Content-Disposition: file; filename-"imagefile.gif" 
Content-Type: image/gif 
Content-Transfer-Encoding: binary 





..contents of imagefile.gif... 
--BbC04y-- 
--AaB03x-- 


15.4.4 多 部 分 范围 响应 

HTTP 对 范围 请 求 的 响应 也 可 以 是 多 部 分 的 。 这 样 的 啊 应 中 有 Content-Type: 
multipart/byteranges 首部 和 带 有 不 同 范围 的 多 部 分 主体 。 下 面 是 一 个 例子 ， 展 
示 了 对 文档 不 同 范围 的 请 求 产 生 的 响应 : 











HTTP/1.0 206 Partial content 

Server: Microsoft-IIS/5.0 

Date: Sun, 10 Dec 2000 19:11:20 GMT 

Content-Location: http://www.joes-hardware.com/gettysburg.txt 
Content-Type: multipart/x-byteranges; boundary--- [abcdefghijklmnopqrstu 
vwxyz]-- 

Last-Modified: Sat, 09 Dec 2000 00:38:47 GMT 





--[abcdefghijklmnopqgrstuvwxyz]-- 

Content-Type: text/plain 

Content-Range: bytes 0-174/1441 

Fourscore and seven years ago our fathers brought forth on this 
continent a new nation, conceived in liberty and dedicated to the 
proposition that all men are created equal. 
--[abcdefghijklmnopqgrstuvwxyz]-- 

Content-Type: text/plain 

Content-Range: bytes 552-761/1441 





But in a larger sense, we can not dedicate, we can not consecrate, 
we can not hallow this ground. The brave men, living and dead who 

struggled here have consecrated it far above our poor power to add 
or detract, 

--[abcdefghijklmnopqgrstuvwxyz]-- 

Content-Type: text/plain 

Content-Range: bytes 1344-1441/1441 


and that government of the people, by the people, for the people shall 
not perish from the earth. 


-- [abcdefghijklmnopqarstuvwxyz]-- 


本 章 后 面 将 详细 讨论 范围 请 求 。 
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15.5 内容 编 码 


HTTP 应 用 程序 有 时 在 发 送 之 前 需要 对 内 容 进行 编码 。 例 如 ， 在 把 很 大 的 HTML X 
档 发 送 给 通过 慢 速 连接 连 上 来 的 客户 端 之 前 ,服务 器 可 能 会 对 它 进行 压缩 ， 这 样 有 
助 于 减少 传输 实体 的 时 间 。 服 务 器 还 可 以 把 内 容 搅乱 或 加 密 ， 以 此 来 防止 未 经 授权 
的 第 三 方 看 到 文档 的 内 容 。 


这 种 类 型 的 编码 是 在 发 送 方 应 用 到 内 容 之 上 的 。 当 内 容 经 过 内 容 编码 之 后 ， 编 好 码 
的 数据 就 放 在 实体 主体 中 ， 像 往常 一 样 发 送 给 接收 方 。 

















15.5.1 内 容 编码 过 程 
内 容 编 码 的 过 程 如 下 所 述 。 


(1) 网 站 服务 器 生成 原始 响应 报 文 ， 其 中 有 原始 的 Content-Type 和 Content- 
Length 首部 。 


(2) 内 容 编码 服务 器 (也 可 能 就 是 原始 的 服务 器 或 下 行 的 代理 ) 创建 编码 后 的 报 文 。 
编码 后 的 报 文 有 同样 的 content-Type fH Content-Length 可 能 不 同 ( 比 如 
主体 被 压缩 了 )。 内 容 编 码 服务 器 在 编码 后 的 报 文中 增加 Content -Encoding 
首部 ， 这 样 接收 的 应 用 程序 就 可 以 进行 解码 了 。 

(3) 接收 程序 得 到 编码 后 的 报 文 ， 进 行 解码 ， 获 得 原始 报 文 。 


图 15-3 给 出 了 内 容 编 码 的 梗概 示例 。 














原始 内 容 内 容 编码 之 后 的 内 容 原始 内 容 

Content-type: text/html Content-type: text/html Content-type: text/html 

Content-length: 12480 Content-length: 3907 Content-length: 12480 
Content-encoding: gzip aL 


01001011 
11000101 











| | 
gzip 内 容 解码 器 gzip 内 容 编码 器 





15-3 内容 编码 示例 


在 这 个 例子 中 ， 通 过 gzip 内 容 编码 函数 对 HTML 页 面 处 理 之 后 ， 得 到 一 个 更 小 的 、 
压缩 的 主体 。 经 过 网 络 发 送 的 是 压缩 的 主体 ， 并 打上 了 gzip 压缩 的 标志 。 接 收 的 客 
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户 端 使 用 gzip 解码 器 对 实体 进行 解压 缩 。 
下 面 给 出 的 响应 片段 是 另 一 个 编码 响应 的 例子 〈 一 个 压缩 的 图 像 ) : 





HTTP/1.1 200 OK 

Date: Fri, 05 Nov 1999 22:35:15 GMT 
Server: Apache/1.2.4 
Content-Length: 6096 

Content-Type: image/gif 
Content-Encoding: gzip 


Lasd 


ESE, Content-Type 首部 可 以 且 还 应 当 出 现在 报 文中 。 它 说 明了 实体 的 原始 格式 ， 
一 旦 实体 被 解码 ， 要 显示 的 时 候 ， 可 能 还 是 需要 该 信息 才 行 的 。 记 住 ，content- 
Length 首部 现在 代表 的 是 编码 之 后 的 主体 长 度 。 


15.5.2 内容 编 码 类 型 

HTTP 定义 了 一 些 标准 的 内 容 编 码 类 型 ， 并 允许 用 扩展 编码 的 形式 增添 更 多 的 编码 。 
由 互联 网 号 码 分 配 机 构 (IANA) 对 各 种 编码 进行 标准 化 ， 它 给 每 个 内 容 编 码 算法 分 
配 了 唯一 的 代号 。 Content-Encoding 首部 就 用 这 些 标准 化 的 代号 来 说 明 编 码 时 使 
用 的 算法 。 

表 15-2 列 出 了 一 些 常 用 的 内 容 编码 代号 。 


表 15-2 ”内 容 编码 代号 












































content-Encoding 值 描述 Ü 
gzip 表明 实体 采用 GNU zip 编码 * 
compress 表明 实体 采用 Unix 的 文件 压缩 程序 
deflate 表明 实体 是 用 zlib 的 格式 压缩 的 " 
identity 表明 没有 对 实体 进行 编码 。 当 没有 Content-Encoding 首部 时 ， 就 默认 
为 这 种 情况 


a: RFC 1952 中 说 明了 gzip 编码 。 

b: RFC 1950 和 1951 中 讲解 了 zlib 格式 和 deflate 压缩 算法 。 
gzip, compress 以 及 deflate 编码 都 是 无 损 压 缩 算法 ， 用 于 减少 传输 报 文 的 大 小 ， 不 
会 导致 信息 损失 。 这 些 算法 中 ，gzip 通常 是 效率 最 高 的 ， 使 用 最 为 广泛 。 




















15.5.3 Accept-Encoding 首 部 
毫 无 疑问 ， 我 们 不 希望 服务 器 用 客户 端 无 法 解码 的 方式 来 对 内 容 进行 编码 。 为 了 
避免 服务 器 使 用 客户 端 不 支持 的 编码 方式 ， 客 户 端 就 把 自己 支持 的 内 容 编码 方式 
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列表 放 在 请 求 的 Accept-Encoding 首部 里 发 出 去 。 如 果 HTTP 请 求 中 没有 包含 
Accept-Encoding 首部 ， 服务 器 就 可 以 假设 客户 端 能 够 接受 任何 编码 方式 (等 价 
于 发 送 Accept-Encoding: *), 








图 15-4 展示 了 HTTP 事务 中 的 Accept-Encoding 首部 。 





请 求 报 文 
GET /logo.gif HTTP/1.1 
Mn os: gzip 



































g 

O'REILLY” ` O'REILLY 

A HTTP/1.1 200 OK I 

i Content-type: image/gif | 

i Content-encoding: gzip i 

i gunzip E - ;gzip 

: 响应 报 文 Y 
...011010011... | ese ...011010011... 


























服务 器 使 用 gzip 对 图 像 进行 压缩 ， 以 便 在 它 和 客户 端 
之 间 的 狭 罕 网 络 连接 上 传送 一 个 较 小 的 文件 。 这 样 可 
以 节约 网 络 带宽 和 客户 端 等 待 传送 的 时 间 。 不 过 ， 客 
户 端 在 收 到 图 像 之 后 ， 还 需要 花费 时 间 进 行 解压 缩 。 












































15-4 展示 了 HTTP 事务 中 的 Accept-Encoding 首部 
Accept-Encoding 字段 包含 用 逗号 分 隔 的 支持 编码 的 列表 ， 下 面 是 一 些 例子 : 


Accept-Encoding: compress, gzip 

Accept-Encoding: 

Accept-Encoding: * 

Accept-Encoding: compress;q=0.5, gzip;q-1.0 

Accept-Encoding: gzip;q=1.0, identity; q=0.5, *;q=0 
客户 端 可 以 给 每 种 编码 附带 Q (质量 ) 值 参 数 来 说 明 编码 的 优先 级 。Q 值 的 范围 从 
0.0 到 1.0, 0.0 说 明 客户 端 不 想 接 受 所 说 明 的 编码 ，1.0 则 表明 最 希望 使 用 的 编码 。 
“*” 表 示 “ 任 何其 他 方法 "。 决 定 在 响应 中 国 送 什么 内 容 给 客户 端 是 个 更 通用 的 过 
程 ， 而 选择 使 用 何 种 内 容 编码 则 是 此 过 程 的 一 部 分 。 第 17 章 将 详细 讨论 这 个 过 程 ， 
以 及 Content-Encoding 首部 和 Accept-Encoding 首部 。 














identity 编码 代号 只 能 在 Accept-Encoding 首部 中 出 现 ， 客 户 端 用 它 来 说 明 相 
对 于 其 他 内 容 编码 算法 的 优先 级 。 





15.6 ”传输 编码 和 分 块 编码 

前 一 节 讨 论 的 内 容 编 码 ， 是 对 报 文 的 主体 进行 的 可 逆 变 换 。 内 容 编码 是 和 内 容 的 有 具 
体格 式 细节 紧密 相关 的 。 例 如 ， 你 可 能 会 用 gzip 压缩 文本 文件 ， 但 不 是 JPEG X 
件 ， 因 为 JPEG 这 类 东西 用 gzip 压缩 的 不 够 好 。 

本 节 讨 论 传输 编码 。 传 输 编 码 也 是 作用 在 实体 主体 上 的 可 逆 变 换 ， 但 使 用 它们 是 由 
于 架构 方面 的 原因 ， 同 内 容 的 格式 无 关 。 如 图 15-5 所 示 ， 使 用 传输 编码 是 为 了 改变 
报 文中 的 数据 在 网 络 上 传输 的 方式 。 











经 过 内 容 编 码 的 响应 

HTTP/1.0 200 OK 

Content-encoding: gzip 标准 的 首部 块 
Content-type: text/html 





= 标准 的 实体 (只 

I eu es ase 是 经 过 了 编 权 ) 经 过 内 容 编 妈 的 报 文 ， 只 是 对 报 文 的 实 

体 部 分 进行 了 编码 。 而 对 于 经 过 传 给 编 

7 码 的 报 文 来 说 ， 编 码 作用 在 整个 报 文 上 ， 
报 文 自身 的 结构 发 生 了 改变 。 


HTTP/1.1 200 OK 














Transfer-encoding: chunked 基本 的 首部 
10 | 
abcdefghijk 经 过 编码 的 块 
1 

a 











& 15-5 内 容 编码 和 传输 编码 的 对 比 


15.6.1 可 靠 传 输 

长 久 以 来 ， 在 其 他 一 些 协 议 中 会 用 传输 编码 来 保证 报 文 经 过 网 络 时 能 得 到 “可 靠 传 
im. (E HTTP 协议 中 ， 可 靠 传输 关注 的 焦点 有 所 不 同 ， 因 为 底层 的 传输 设施 已 经 标 
准 化 并 且 容 错 性 更 好 。 在 HTTP 中 ， 只 有 少数 一 些 情况 下 ， 所 传输 的 报 文 主体 可 能 
会 引发 问题 。 其 中 两 种 情况 如 下 所 述 。 


。 未 知 的 尺寸 
如 果 不 先生 成 内 容 ， 某 些 网 关 应 用 程序 和 内 容 编码 器 就 无 法 确定 报 文 主体 的 最 终 
大 小 。 通 常 ， 这 些 服务 器 希望 在 知道 大 小 之 前 就 开始 传输 数据 。 因 为 HTTP 协议 
要 求 content -Length 首部 必须 在 数据 之 前 ， 有 些 服务 器 就 使 用 传输 编码 来 发 
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送 数据 ， 并 用 特别 的 结束 脚注 表明 数据 结束 。 ' 


。 安全 性 
你 可 以 用 传输 编码 来 把 报 文 内 容 扰 乱 ， 然 后 在 共享 的 传输 网 络 上 发 送 。 不 过 ， 由 
FIR SSL 这 样 的 传输 层 安全 体系 的 流行 ， 就 很 少 需 要 靠 传输 编码 来 实现 安全 性 了 。 


15.6(2 Transfer-Encoding 首 部 
HTTP 协议 中 只 定义 了 下 面 两 个 首部 来 描述 和 控制 传输 编码 。 


° Transfer-Encoding 


告知 接收 方 为 了 可 靠 地 传输 报 文 ， 已 经 对 其 进行 了 何 种 编码 。 


° TE 


用 在 请 求 首部 中 ， 告 知 服务 器 可 以 使 用 哪些 传输 编码 扩展 。* 


下 面 的 例子 中 ， 请 求 使 用 了 TE 首部 来 告诉 服务 器 它 可 以 接受 分 块 编码 (如果 古 
HTTP/1.1 应 用 程序 的 话 ， 这 就 是 必须 的 ) 并 且 愿 意 接 受 附 在 分 块 编码 的 报 文 结尾 上 
的 拖 挂 : 

GET /new products.html HTTP/1.1 

Host: www.joes-hardware.com 


User-Agent: Mozilla/4.61 [en] (WinNT; I) 
TE: trailers, chunked 


对 它 的 响应 中 包含 Transfer-Encoding 首部 ， 用 于 告诉 接收 方 已 经 用 分 块 编码 对 
报 文 进行 了 传输 编码 : 
HTTP/1.1 200 OK 


Transfer-Encoding: chunked 
Server: Apache/3.0 


在 这 个 起 始 首部 之 后 ， 报 文 的 结构 就 将 发 生 改 变 。 

传输 编码 的 值 都 是 大 小 写 无 关 的 。HTTP/1.1 规定 在 TE 首部 和 Transfer-Encoding 
首部 中 使 用 传输 编码 值 。 最 新 的 HTTP 规范 只 定义 了 一 种 传输 编码 ， 就 是 分 块 编码 。 
与 Accept-Encoding 首部 类 似 ，TE 首部 也 可 以 使 用 o 值 来 说 明 传 输 编 码 的 优先 顺 
序 。 不 过 ，HTTP/1.1 规范 中 禁止 将 分 块 编码 关联 的 o 值 设 为 0.0。 








注 7; 尽管 可 以 因 陋 就 简 地 用 关闭 连接 作为 报 文 结束 的 信号 ， 但 这 种 方法 不 能 用 于 持久 连接 。 
注 8: 如 果 这 个 首部 起 名 叫 Accept -Transfer-Encoding， 它 的 意义 就 会 更 直 白 。 
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HTTP 将 来 的 扩展 可 能 会 推动 对 更 多 传输 编码 的 需求 。 如 果真 的 如 此 ， 那 分 块 编码 
仍 应 始终 作用 在 其 他 传输 编码 之 上 ， 这 样 就 保证 数据 可 以 像 隧道 那样 “ 穿 透 ”那些 
只 理解 分 块 编码 但 不 理解 其 他 传输 编码 的 HTTP/1.1 应 用 程序 。 





15.63 “分 块 编码 

分 块 编码 把 报 文 分 割 为 若干 个 大 小 已 知 的 块 。 块 之 间 是 紧 挨 着 发 送 的 ， 这 样 就 不 需 
要 在 发 送 之 前 知道 整个 报 文 的 大 小 了 。 

要 注意 的 是 ， 分 块 编 码 是 一 种 传输 编码 ， 因 此 是 报 文 的 属性 ， 而 不 是 主体 的 属 
性 。 本 章 前 面部 分 讨论 过 的 多 部 分 编码 ， 就 是 主体 的 属性 ， 它 和 分 块 编 码 是 完 
独立 的 。 





1. 分 块 与 持久 连接 
若 客 户 端 和 服务 器 之 间 不 是 持久 连接 ， 客 户 端 就 不 需要 知道 它 正 在 读 取 的 主体 的 长 
度 ， 而 只 需要 读 到 服务 器 关闭 主体 连接 为 止 。 


当 使 用 持久 连接 时 ， 在 服务 器 写 主体 之 前 ， 必 须知 道 它 的 大 小 并 在 Content- 
Length 首部 中 发 送 。 如 果 服 务 器 动态 创建 内 容 ， 就 可 能 在 发 送 之 前 无 法 知道 主体 
的 长 度 。 


分 块 编码 为 这 种 困难 提供 了 解决 方案 ， 只 要 允许 服务 器 把 主体 逐 块 发 送 ， 说 明 每 块 
的 大 小 就 可 以 了 。 因 为 主体 是 动态 创建 的 ， 服 务 器 可 以 缓冲 它 的 一 部 分 ， 发 送 其 大 
小 和 相应 的 块 ， 然 后 在 主体 发 送 完 之 前 重复 这 个 过 程 。 服 务 器 可 以 用 大 小 为 0 的 块 
作为 主体 结束 的 信号 ， 这 样 就 可 以 继续 保持 连接 ， 为 下 一 个 响应 做 准备 。 


分 块 编码 是 相当 简单 的 。 图 15-6 展示 了 一 个 分 块 编码 报 文 的 基本 结构 。 它 由 起 始 的 
HTTP 响应 首部 块 开 始 ， 随 后 就 是 一 系列 分 块 。 每 个 分 块 包含 一 个 长 度 值 和 该 分 块 
的 数据 。 长 度 值 是 十 六 进 制 形式 并 将 CRLF 与 数据 分 隔 开 。 分 块 中 数据 的 大 小 以 字 
节 计 算 ， 不 包括 长 度 值 与 数据 之 间 的 CRLF 序列 以 及 分 块 结尾 的 CRLF 序列 。 最 后 
一 个 块 有 点 特别 ， 它 的 长 度 值 为 0， 表 示 “ 主 体 结束 ”。 


客户 端 也 可 以 发 送 分 块 的 数据 给 服务 器 。 因 为 客户 端 事先 不 知道 服务 器 是 否 接受 分 
块 编码 (这 是 因为 服务 器 不 会 在 给 客户 端的 响应 中 发 送 TE 首部 ) ， 所 以 客户 端 必须 
做 好 服务 器 用 411 Length Required (需要 Content-Length 首部 ) 响应 来 拒绝 分 块 
请 求 的 准备 。 
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. C | WTTP/1.1 200 OK<CR><LF> 
响应 流 ^  |Content-type: text/plain«CR»«LF» 
í Transfer-encoding: chunked<CR><LF> 
HTTPHfj Trailer: Content-MD5«CR»«LF» 
— | 《CR><LF> 
、 ”十 六 进 制 表 示 的 分 块 大 小 CEZSETURU272 394 SERE) 
第 ! 块 ` 
— 27«CR»«LF» 
Em We hold these truths to be self-evident«CR»«LF» 
第 2? 块 26<CR><LF> 
Te |, that all men are created equal, that<CR><LF> 
se | 84<CR><LF> 
第 3 块 they are endowed by their Creator with certain 
<、 unalienable Rights, that among these are Life, 


`-.. | Liberty and the pursuit of Happiness.<CR><LF> 





^ | oxCR><LF> 

















"ii Content-MD5:gjqei54p26tjisgj3p4utjgrj53«CR»«LF» 
map Doo * 可 选 一 仅 当 报 文 首部 中 有 Trailer 首 部 时 才 出 现 


























` 
` 














15-6 剖析 分 块 编码 报 文 


2. 分 块 报 文 的 拖 挂 

如 果 客 户 端的 TE 首部 中 说 明 它 可 以 接受 拖 挂 的 话 ， 就 可 以 在 分 块 的 报 文 最 后 加 上 拖 
挂 。 产 生 原 始 响 应 的 服务 器 也 可 以 在 分 块 的 报 文 最 后 加 上 拖 挂 。 拖 挂 的 内 容 是 可 选 的 
元 数据 ， 客 户 端 不 一 定 需要 理解 和 使 用 (客户 端 可 以 忽略 并 丢弃 拖 挂 中 的 内 容 )。” 


拖 挂 中 可 以 包含 附带 的 首部 字段 ， 它 们 的 值 在 报 文 开始 的 时 候 可 能 是 无 法 确定 的 
(例如 ， 必 须要 先生 成 主体 的 内 容 ) 。content -MD5 首部 就 是 一 个 可 以 在 拖 挂 中 发 送 
的 首部 ， 因 为 在 文档 生成 之 前 ， 很 难 算出 它 的 MD5。 图 15-6 中 展示 了 拖 挂 的 使 用 
方式 。 报 文 首部 中 包含 一 个 Trailer 首部 ， 列 出 了 跟 在 分 块 报 文 之 后 的 首部 列表 。 
在 Trailer 首部 中 列 出 的 首部 就 紧 接 在 最 后 一 个 分 块 之 后 。 

















除了 Transfer-Encoding、Trailer 以 及 Content-Length 首部 之 外 ， 其 他 HTTP 
首部 都 可 以 作为 拖 挂 发 送 。 





注 9: trailer ( 拖 挂 ) 首部 是 在 最 初 的 分 块 编码 被 加 入 到 HTTP/1.1 规范 的 草案 之 后 才 加 入 的 ， 因 此 有 些 
应 用 程序 可 能 不 理解 这 个 首部 〈 或 者 不 理解 拖 挂 )， 尽 管 它们 声称 是 兼容 HITP/1.1 RU, 

















15.6.4 内容 编码 与 传输 编码 的 结合 

内 容 编 码 与 传输 编码 可 以 同时 人 使用。 例如， 图 15-7 中 展示 了 发 送 方 如 何 用 内 容 编 码 
压缩 HTML 文件， 再 使 用 传输 编码 分 块 发 送 。 接 收 方 “ 重 构 ” 主 体 的 过 程 和 发 送 方 
相反 。 























Content-type: text/html 


























内 容 编 码 


Content-type: ba 9BF2578E 9BF2578E 
Content-encoding: gzi A42670CD A42670CD 


传输 编码 (分 块 ) 


Content-type: el EE 
Content-encoding Em 
Transfer- encoding: Schlinked ogBE| 


re 
> 
[oJ 











& 15-7. 内容 编 码 和 传输 编码 结合 


15.6.5 ”传输 编码 的 规则 

对 报 文 主体 使 用 传输 编码 时 ， 必 须 遵守 以 下 规则 。 

° 传输 编码 集合 中 必须 包括 “分 块 "。 唯 一 的 例外 是 使 用 关闭 连接 来 结束 报 文 。 
° 当 使 用 分 块 传输 编码 时 ， 它 必须 是 最 后 一 个 作用 到 报 文 主体 之 上 的 。 

° 分 块 传输 编码 不 能 多 次 作用 到 一 个 报 文 主体 上 。 





这 些 规 则 使 得 接收 方 能 够 确定 报 文 的 传输 长 度 。 


传输 编码 是 HTTP 1.1 版 中 引入 的 一 个 相对 较 新 的 特性 。 实 现 传输 编码 的 服务 器 必 
须 特 别 注意 不 要 把 经 传输 编码 后 的 报 文 发 送 给 非 HTTP/1.1 的 应 用 程序 。 同 样 地 ， 
如 果 服 务 器 收 到 无 法 理解 的 经 过 传输 编码 的 报 文 ， 它 应 当 用 501 Unimplemented 状 
态 码 来 回复 。 不 过 ， 所 有 的 HTTP/1.1 应 用 程序 至 少 都 必须 支持 分 块 编码 。 


15.7 ”随时 间 变 化 的 实例 


网 站 对 象 并 不 是 静态 的 。 同 样 的 URL 会 随 着 时 间 变 化 而 指向 对 象 的 不 同 版 本 。 以 
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CNN 的 主页 为 例 ， 同 一 天 里 多 次 访问 http:Wwww.cnn.com， 可 能 每 次 得 到 的 返回 页 
面 都 会 略 有 不 同 。 


可 以 把 CNN 的 主页 当 作 一 个 对 象 来 考虑 ， 其 不 同 版 本 就 可 以 看 作 这 个 对 象 的 不 同 
实例 (参见 图 15-8)。 在 图 中 ， 客 户 端 多 次 请 求 同 一 个 资源 (URL)， 但 得 到 的 是 该 
资源 的 不 同 实例 ， 因 为 它 是 随时 间 而 变化 的 。 在 时 间 (a) 和 时 间 (b) 具有 相同 的 
实例 ， 而 在 时 间 (c) 则 是 不 同 的 实例 。 


如 由 民风 避风 pP pP D 



































(d) (e) 
时 间 2 月 17 日 下 3 月 3 日 上 午 4 月 2 日 上 4JH12H F 
午 4 点 30 分 11 点 21 分 午 9 点 07 分 。 午 1 点 48 分 
版 本 1 版 本 2 版 本 3 版 本 4 www.cnn.com 











图 15-8 实例 是 资源 在 某 个 时 间 的 “快照 ” 


HTTP 协议 规定 了 称 为 实例 操控 (instance manipulations) 的 一 系列 请 求 和 响应 操 
作 ， 用 以 操控 对 象 的 实例 。 两 个 主要 的 实例 操控 方法 是 范围 请 求 和 差异 编码 。 这 两 
种 方法 都 要 求 客 户 端 能 够 标识 它 所 拥有 (如果 有 的 话 ) 的 资源 的 特定 副本 ， 并 在 一 
定 的 条 件 下 请 求 新 的 实例 。 本 章 后 面 将 讨论 这 些 机 制 。 


15.8 ”验证 码 和 新 鲜 度 


现在 再 回顾 前 面 的 图 15-8。 客 户 端 起 初 没有 该 资源 的 副本 ， 因 此 它 发 送 请 求 给 服务 
器 要 求 得 到 一 份 。 服 务 器 用 该 资源 的 版 本 1 给 以 响应 。 客 户 端 现在 可 以 缓存 这 份 副 
本 ,但 是 要 缓存 多 长 时 间 呢 ? 


当 文 档 在 客户 端 “ 过 期 ”之 后 (也 就 是 说 ， 客 户 端 不 再 认为 该 副本 有 效 )， 客 户 端 必 
须 从 服务 器 请 求 一 份 新 的 副本 。 不 过 ， 如 果 该 文档 在 服务 器 上 并 未 发 生 改 变 ， 客 户 
端 也 就 不 需要 再 接收 一 次 了 一 一 继续 使 用 缓存 的 副本 即 可 。 


这 种 特殊 的 请 求 ， 称 为 有 条 件 的 请 求 (conditional request) ， 要 求 客户 端 使 用 验证 码 
(validator) 来 告知 服务 器 它 当 前 拥有 的 版 本 号 ， 并 仅 当 它 的 当前 副本 不 再 有 效 时 才 
要 求 发 送 新 的 副本 。 让 我 们 进一步 详细 研究 这 3 个 关键 概念 一 一 新 鲜 度 、 验 证 码 以 
及 有 条 件 的 请 求 。 
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15.8.1 新 鲜 度 
服务 器 应 当 告 知客 户 端 能 够 将 内 容 缓存 多 长 时 间 ， 在 这 个 时 间 之 内 就 是 新 鲜 的 。 
服务 器 可 以 用 这 两 个 首部 之 一 来 提供 这 种 信息 : Expires (过 期 ) FM Cache- 
Control (缓存 控制 ) 。 


Expires 首部 规定 文档 “过 期 ”的 具体 时 间 一 一 些 后 就 不 应 当 认 为 它 还 是 最 新 的 。 
Expires 首部 的 语法 如 下 : 





Expires: Sun Mar 18 23:59:59 GMT 2001 


客户 端 和 服务 器 为 了 能 正确 使 用 Expires 首部 ， 它 们 的 时 钟 必须 同步 。 这 并 不 总 是 
很 容易 的 ， 因 为 它们 可 能 都 没有 运行 像 Network Time Protocol (网 络 时 间 协 议 ，NTP) 
这 样 的 时 钟 同步 协议 。 用 相对 时 间 来 定义 过 期 的 机 制 会 更 有 用 。cache-Control 
首部 可 以 用 秒 数 来 规定 文档 最 长 使 用 期 一 一 从 文档 离开 服务 器 之 后 算 起 的 总 计时 间 。 
使 用 期 不 与 时 钟 同 步 ， 因 此 可 以 给 出 更 精确 的 结果 。 


Skbs E, Cache-Control 首部 功能 很 强大 。 服 务 器 和 客户 端 都 可 以 用 它 来 说 明 新 鲜 度 ， 
并 且 除 了 使 用 期 或 过 期 时 间 之 外 ， 还 有 很 多 指令 可 用 。 表 15-3 yH T Cache-Control 
首部 的 一 些 指令 。 


表 15-3 Cache-Control 首 部 的 指令 




























































































iB < 报 文 类 型 描 g 

no-cache 请 求 在 重新 向 服务 器 验证 之 前 ， 不 要 返回 文档 的 缓存 副本 

no-store 请 求 不 要 返回 文档 的 缓存 副本 。 不 要 保存 服务 器 的 响应 

max-age 请 求 缓存 中 的 文档 不 能 超过 指定 的 使 用 期 

max-stale 请 求 文档 允许 过 期 (根据 服务 器 提供 的 过 期 信息 计算 )， 但 不 能 超过 
指令 中 指定 的 过 期 值 

min-fresh 请 求 文档 的 使 用 期 不 能 小 于 这 个 指定 的 时 间 与 它 的 当前 存活 时 间 之 
和 。 换 名 话说 ， 响 应 必须 至 少 在 指定 的 这 段 时 间 之 内 保持 新 鲜 

no-transform 请 求 文档 在 发 送 之 前 不 允许 被 转换 

only-if-cached 请 求 只 有 当 文档 在 缓存 中 才 发 送 ， 不 要 联系 原始 服务 器 

public 响应 响应 可 以 被 任何 服务 器 缓存 

private 响应 响应 可 以 被 缓存 ， 但 只 能 被 单个 客户 端 访问 

no-cache 响应 如 果 该 指令 伴随 一 个 首部 列表 的 话 ， 那 么 内 容 可 以 被 缓存 并 提 











供给 客户 端 ， 但 必须 先 删除 所 列 出 的 首部 。 如 果 没 有 指定 首部 ， 
缓存 中 的 副本 在 没有 重新 向 服务 器 验证 之 前 不 能 提供 给 客户 端 


no-store 响应 响应 不 允许 被 缓存 
响应 在 提供 给 客户 端 之 前 不 能 做 任何 形式 的 修改 




















< 





no-transform In] 
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E 令 报 文 类 型 描 xh 
must-revalidate 响应 响应 在 提供 给 客户 端 之 前 必须 重新 向 服务 器 验证 
proxy-revalidate 响应 共享 的 缓存 在 提供 给 客户 端 之 前 必须 重新 向 原始 服务 器 验证 。 
私有 的 缓存 可 以 忽略 这 条 指令 
max-age 啊 应 指定 文档 可 以 被 缓存 的 时 间 以 及 新 鲜 度 的 最 长 时 间 
s-max-age 响应 指定 文档 作为 共享 缓存 时 的 最 长 使 用 时 间 (如 果 有 max-age 指 





令 的 话 ， 以 本 指令 为 准 )。 私 有 的 缓存 可 以 忽略 本 指令 
缓存 和 新 鲜 度 在 第 7 章 中 曾 有 详细 讨论 。 


15.8.2 ”有 条 件 的 请 求 与 验证 码 

当 请 求 缓存 服务 器 中 的 副本 时 ， 如 果 它 不 再 新 鲜 ， 缓 存 服务 器 就 需要 保证 它 有 一 个 
新 鲜 的 副本 。 缓 存 服务 器 可 以 向 原始 服务 器 获取 当前 的 副本 。 但 在 很 多 情况 下 ， 原 
始 服务 器 上 的 文档 仍然 与 缓存 中 已 过 期 的 副本 相同 。 我 们 在 图 15-8b 中 看 到 过 这 种 
情况 ;缓存 的 副本 或 许 已 经 过 期 了 ， 但 原始 服务 器 上 的 内 容 与 缓存 的 内 容 仍然 相同 。 
如 果 服 务 器 上 的 文档 和 已 过 期 的 缓存 副本 相同 ， 而 缓存 服务 器 还 是 要 从 原始 服务 器 
上 取 文 档 的 话 ， 那 缓存 服务 器 就 是 在 浪费 网 络 带宽 ， 给 缓存 服务 器 和 原始 服务 器 增 
加 不 必要 的 负载 ， 使 所 有 事情 都 变 慢 了 。 


为 了 避免 这 种 情况 ，HTTP 为 客户 端 提 供 了 一 种 方法 ， 仅 当 资 源 改 变 时 才 请 求 副本 ， 
这 种 特殊 请 求 称 为 有 条 件 的 请 求 。 有 条 件 的 请 求 是 标准 的 HTTP 请 求 报 文 ， 但 仅 当 
某 个 特定 条 件 为 真 时 才 执 行 。 例 如 ， 某 个 缓存 服务 器 可 能 发 送 下 面 的 有 条 件 GET 报 
文 给 服务 器 ， 仅 当 文 件 /announce.html 从 2002 年 6 月 29 日 (这 是 缓存 的 文档 最 后 
被 作者 修改 的 时 间 ) 之 后 发 生 改 变 的 情况 下 才 发 送 它 : 











GET /announce.html HTTP/1.0 
If-Modified-Since: Sat, 29 Jun 2002, 14:30:00 GMT 


有 条 件 的 请 求 是 通过 以 “If-” 开 头 的 有 条 件 的 首部 来 实现 的 。 在 上 面 的 例子 中 ， 有 条 
件 的 首部 是 If-Modified-since( 如 果 一 从 …… 之 后 一 修改 过 )。 有 条 件 的 首部 使 得 
方法 仅 在 条 件 为 真 时 才 执 行 。 如 果 条 件 不 满足 ， 服 务 器 就 发 回 一 个 HTTP 错误 码 。 





每 个 有 条 件 的 请 求 都 通过 特定 的 验证 码 来 发 挥 作用 。 验 证 码 是 文档 实例 的 一 个 特殊 
属性 ， 用 它 来 测试 条 件 是 否 为 真 。 从 概念 上 说 ， 你 可 以 把 验证 码 看 作文 件 的 序列 号 、 
版 本 号 ， 或 者 最 后 发 生 改 变 的 日 期 时 间 。 在 图 15-8b 中 ， 那 个 智能 的 客户 端 发 送 给 
服务 器 的 有 条 件 的 验证 请 求 是 在 说 :“ 我 有 版 本 1， 如 果 这 个 资源 不 再 是 版 本 1 就 把 
它 发 给 我 。 我 们 在 第 7 章 已 经 讨论 过 有 条 件 的 缓存 再 验证 了 ， 而 本 章 会 更 仔细 地 研 
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究 实 体验 证 码 的 细节 。 


有 条 件 的 首部 If-Modified-since 测试 的 是 文档 实例 最 后 被 修改 的 日 期 时 间 , 因 此 
我 们 说 最 后 被 修改 的 日 期 时 间 就 是 验证 码 。 有 条 件 的 首部 r£-None-Matcn 测试 的 
是 文档 的 ETag 值 ， 它 是 与 实体 相关 联 的 一 个 特殊 的 关键 字 ， 或 者 说 是 版 本 识别 标 
记 。Last-Modified fI ETag Æ HTTP 使 用 的 两 种 主要 验证 码 。 表 15-4 中 列 出 了 用 
于 有 条 件 请 求 的 4 种 HTTP 首部 。 每 个 有 条 件 的 首部 之 后 就 是 这 种 首部 所 用 的 验证 
码 类 型 。 

表 15-4 有 条 件 的 请 求 类 型 

请 求 类 型 验 证 8 描 述 

If-Modified-Since Last-Modified 如果 在 前 一 条 响应 的 Last-Modified 首部 中 说 明 的 
时 间 之 后 ， 资 源 的 版 本 发 生变 化 ， 就 发 送 其 副本 


If-Unmodified-Since Last-Modified 仅 在 前 一 条 响应 的 Dast-Modified 首 部 中 说 明 的 时 


















































间 之 后 ， 资 源 的 版 本 没有 变化 ， 才 发 送 其 副本 

IE -Match ETag 如 果实 体 的 标记 与 前 一 次 响应 首部 中 的 ETag 相同 ， 
就 发 送 该 资源 的 副本 

If-None-Match ETag 如 果实 体 的 标记 与 前 一 次 响应 首部 中 的 ETag 不 同 ， 


























就 发 送 该 资源 的 副本 


HTTP 把 验证 码 分 为 两 类 : 弱 验 证 码 (weak validators) 和 强 验 证 码 (strong validators). 
弱 验 证 码 不 一 定 能 唯一 标识 资源 的 一 个 实例 ， 而 强 验 证 码 必 须 如 此 。 弱 验证 码 的 一 
个 例子 是 对 象 的 大 小 字 节 数 。 有 可 能 资源 的 内 容 改 变 了 ， 而 大 小 还 保持 不 变 ， 因 此 
假想 的 字 布 计数 验证 码 与 改变 是 弱 相 关 的 。 而 资源 内 容 的 加 密 校 验 和 (比如 MD5) 
就 是 强 验证 码 ， 当 文档 改变 时 它 总 是 会 改变 。 








最 后 修改 时 间 被 当 作 弱 验 证 码 ， 因 为 尽管 它 说 明了 资源 最 后 被 修改 的 时 间 ， 但 它 的 
描述 精度 最 大 就 是 1 秒 。 因 为 资源 在 1 秒 内 可 以 改变 很 多 次 ， 而 且 服务 器 每 秒 可 以 
处 理 数 千 个 请 求 ， 最 后 修改 日 期 时 间 并 不 总 能 反应 变化 情况 。ETag 首部 被 当 作 强 验 
证 码 ， 因 为 每 当 资源 内 容 改变 时 ， 服 务 器 都 可 以 在 ETag 首部 放置 不 同 的 值 。 版 本 
号 和 摘要 校 验 和 也 是 很 好 的 ETag 首部 候选 ， 但 它们 不 能 带 有 任意 的 文本 。ETag Ë 
部 很 灵活 ， 它 可 以 带 上 任意 的 文本 值 (以 标记 的 形式 )， 这 样 就 可 以 用 来 设计 出 各 种 
各 样 的 客户 端 和 服务 器 验证 策略 。 








有 时 候 ， 客 户 端 和 服务 器 可 能 需要 采用 不 那么 精确 的 实体 标记 验证 方法 。 例 如 ， 某 
服务 器 可 能 想 对 一 个 很 大 、 被 广泛 缓存 的 文档 进行 一 些 美 化 修饰 ， 但 不 想 在 缓存 服 
务 器 再 验证 时 产生 很 大 的 传输 流量 。 在 这 种 情况 下 ， 该 服务 器 可 以 在 标记 前 面 加 上 
“W/” 前 级 来 广播 一 个 “ 弱 ” 实 体 标记 。 对 于 弱 实 体 标记 来 说 ， 只 有 当 关 联 的 实体 
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在 语义 上 发 生 了 重大 改变 时 ， 标 记 才 会 变化 。 而 强 实体 标记 则 不 管 关联 的 实体 发 生 
了 什么 性 质 的 变化 ， 标 记 都 一 定 会 改变 。 


下 面 的 例子 展示 了 客户 端 如 何 用 弱 实 体 标记 向 服务 器 请 求 再 验证 。 服 务 器 仅 当 文档 
的 内 容 从 版 本 4.0 算 起 发 生 了 显著 变化 时 ， 才 返回 主体 : 














GET /announce.html HTTP/1.1 
If-None-Match: W/"v4.0" 


概括 一 下 ， 当 客户 端 多 次 访问 同一 个 资源 时 ， 首 先 需 要 判断 它 当 前 的 副本 是 不 是 仍 
然 新 鲜 。 如 果 不 再 新 鲜 ， 它 们 就 必须 从 服务 器 获取 最 新 的 版 本 。 为 了 避免 在 资源 没 
有 改变 的 情况 下 收 到 一 份 相同 的 副本 ， 客 户 端 可 以 向 服务 器 发 送 有 条 件 的 请 求 ， 说 
明 能 唯一 标识 客户 端 当前 副本 的 验证 码 。 只 在 资源 和 客户 端的 副本 不 同 的 情况 下 服 
务 器 才 会 发 送 其 副本 。 更 多 关于 缓存 再 验证 的 细节 ， 请 回顾 7.7 市 。 








15.9 范围 请 3 


关于 客户 端 如 何 要 求 服 务 器 只 在 资源 的 客户 端 副本 不 再 有 效 的 情况 下 才 发 送 其 副本 ， 
我 们 已 经 清楚 地 理解 了 。HTTP 还 进一步 锦上添花 : 它 允 许 客户 端 实际 上 只 请 求 文 
档 的 一 部 分 ， 或 者 说 某 个 范围 。 


假设 你 正 通过 慢 速 的 调制 解 调 器 连接 下 载 最 新 的 热门 软件 ， 已 经 下 了 四 分 之 三 ， 忽 
然 因为 一 个 网 络 故障 ， 连 接 中 断 了 。 你 已 经 为 等 待 下 载 完 成 耽误 了 很 入， 而 现在 被 
迫 要 全 部 重头 再 来 ， 祈 祷 着 别 再 发 生 这 样 的 倒霉 事 了 。 

A TEER, HTTP 客户 端 可 以 通过 请 求 曾 获 取 失 败 的 实体 的 一 个 范围 〈 或 者 说 
一 部 分 ) ， 来 恢复 下 载 该 实体 。 当 然 这 有 一 个 前 提 ， 那 就 是 从 客户 端 上 一 次 请 求 该 实 
体 到 这 次 发 出 范围 请 求 的 时 段 内 ， 该 对 象 没有 改变 过 。 例 如 : 












































GET /bigfile.html HTTP/1.1 

Host: www.joes-hardware.com 

Range: bytes=4000- 

User-Agent: Mozilla/4.61 [en] (WinNT; I) 


在 本 例 中 ， 客 户 端 请 求 的 是 文档 开头 4000 字 节 之 后 的 部 分 (不 必 给 出 结尾 字 节 数 ， 
因为 请 求 方 可 能 不 知道 文档 的 大 小 ) 。 在 客户 端 收 到 了 开头 的 4000 字 市 之 后 就 失败 
的 情况 下 ， 可 以 使 用 这 种 形式 的 范围 请 求 。 还 可 以 用 Range 首部 来 请 求 多 个 范围 
(这 些 范 围 可 以 按 任意 顺序 给 出 ， 也 可 以 相互 重 琶 ) 。 例 如 ， 假 设 客户 端 同 时 连接 到 
多 个 服务 器 ， 为 了 加 速 下 载 文档 而 从 不 同 的 服务 器 下 载 同 一 个 文档 的 不 同 部 分 。 对 
于 客户 端 在 一 个 请 求 内 请 求 多 个 不 同 范围 的 情况 ， 返 回 的 响应 也 是 单个 实体 ， 它 有 
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一 个 多 部 分 主体 及 Content-Type: multipart/byteranges 首部 。 





并 不 是 所 有 服务 器 都 接受 范围 请 求 ， 但 很 多 服务 器 可 以 。 服 务 器 可 以 通过 在 响应 中 
这 


包含 Accept-Ranges 首部 的 形式 向 客户 端 说 明 可 以 接受 的 范围 请 求 。 
通常 是 以 字 节 计算 的 。” 例如: 








值 是 计算 范围 的 单位 ， 














HTTP/1.1 200 OK 

Date: Fri, 05 Nov 1999 22:35:15 GMT 
Server: Apache/1.2.4 

Accept-Ranges: bytes 





个 首部 的 


图 15-9 展示 了 涉及 范围 请 求 的 一 系列 HTTP 事务 的 例子 。 





请 求 报 文 
J 
d pus HTTP/1.1 





E. 


客户 端 








响应 报 文 


E 





HTTP/1.1 200 Ok 
Content-type: text/html 
Content-length: 65537 
re Ee bytes 


www.joes-hardware.com 








范围 请 求 报 文 








“| GET /bigfile.html HTTP.1.1 














到 响应 的 开头 | 289. py es=20224- 
20 22435 
客户 端的 原始 请 求 中 范围 响应 报 文 
断 了 ， 但 第 2 次 请 求 HTTP/1.1 206 partial 
是 要 求 原 来 的 响应 报 Content-Range: bytes=20224- 
文中 没有 收 到 的 部 分 ， Accept-ranges: bytes 
这 样 客户 端 就 能 够 从 -t [...] 
中 断 点 继续 接收 报 文 了 。 





www.joes-hardware.com 

















图 15-9 ”实体 范围 请 求 示例 


Range 首部 在 流行 的 点 对 点 (Peer-to-Peer，P2P) 文件 共享 客户 端 软件 中 得 到 广泛 
应 用 ， 它 们 从 不 同 的 对 等 实体 同时 下 载 多 媒体 文件 的 不 同 部 分 。 








衡量 或 切 分 实体 。 


iE 10: HTTP/1.1 规范 中 只 定义 了 bytes 记号 ， 但 服务 器 和 客户 端的 具体 实现 可 以 用 它们 








己 认定 的 单位 来 
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注意 ， 范 围 请 求 也 属于 一 类 实例 操控 ， 因 为 它们 是 在 客户 端 和 服务 器 之 间 针 对 特定 
的 对 象 实例 来 交换 信息 的 。 也 就 是 说 ， 客 户 端的 范围 请 求 仅 当 客 户 端 和 服务 器 拥有 
文档 的 同一 个 版 本 时 才 有 意义 。 


15.10 ”差异 编码 


我 们 曾 把 网 站 页 面 的 不 同 版 本 看 作 页 面 的 不 同 实例 。 如 果 客 户 端 有 一 个 页 面 的 已 过 
期 副本 ， 就 要 请 求 页 面 的 最 新 实例 。 如 果 服 务 器 有 该 页 面 更 新 的 实例 ， 就 要 把 它 发 
给 客户 端 ， 哪 怕 页 面 上 只 有 一 小 部 分 发 生 了 改变 ， 也 要 把 完整 的 新 页 面 实 例 发 给 客 
P. 

若 改 变 的 地 方 比 较 少 ， 与 其 发 送 完整 的 新 页 面 给 客户 端 ， 客 户 端 更 愿意 服务 器 只 发 
送 页 面 发 生 改 变 的 部 分 ， 这 样 就 可 以 更 快 地 得 到 最 新 的 页 面 。 差 异 编码 是 HTTP 协 
议 的 一 个 扩展 ， 它 通过 交换 对 象 改 变 的 部 分 而 不 是 完整 的 对 象 来 优化 传输 性 能 。 差 
异 编码 也 是 一 类 实例 操控 ， 因 为 它 依赖 客户 端 和 服务 器 之 间 针 对 特定 的 对 象 实例 来 
交换 信息 。RFC 3220 描述 了 差异 编码 。 


图 15-10 更 清楚 地 展示 了 差异 编码 的 结构 ， 包 括 请 求 、 生 成 、 接 收 和 装配 文档 的 全 
过 程 。 客 户 端 必须 告诉 服务 器 它 有 页 面 的 哪个 版 本 ， 它 愿意 接受 页 面 最 新 版 的 差异 
(delta) ， 它 慌 得 哪些 将 差异 应 用 于 现 有 版 本 的 算法 。 服 务 器 必须 检查 它 是 否 有 这 个 
页 面 的 客户 端 现 有 版 本 ， 计 算 客 户 端 现 有 版 本 与 最 新 版 之 间 的 差异 (有 若干 算法 可 
以 计算 两 个 对 象 之 间 的 差异 )。 然 后 服务 器 必须 计算 差异 ， 发 送 给 客户 端 ， 告 知客 户 
端 所 发 送 的 是 差异 ， 并 说 明 最 新 版 页 面 的 新 标识 (ETag)， 因 为 客户 端 将 差异 应 用 
于 其 老 版 本 之 后 就 会 得 到 这 个 版 本 。 


客户 端 在 If -None -Match 首部 中 使 用 的 是 它 所 持 有 页 面 版 本 的 唯一 标识 ， 这 个 标 
识 是 服务 器 之 前 响应 客户 端 时 在 ETag 首部 中 发 送 的 。 客 户 端 是 在 对 服务 器 说 :“ 如 
果 你 那里 页 面 的 最 新 版 本 标识 和 这 个 ETag 不 同 ， 就 把 这 个 页 面 的 最 新 版 本 发 给 
我 。 如 果 只 有 If-None-Match 首部 ， 服 务 器 将 会 把 该 页 面 的 最 新 版 本 完整 地 发 给 
客户 端 。( 假 设 最 新 版 和 客户 端 持 有 的 版 本 不 同 。) 


不 过 ， 如 果 客 户 端 想 告诉 服务 器 它 愿 意 接受 该 页 面 的 差异 ， 只 要 发 送 R-IM 首部 就 
可 以 了 。A-IM 是 Accept-Instance-Manipulation (接受 实例 操控 ) 的 缩写 。 形 象 比喻 
的 话 ， 客 户 端 相当 于 这 样 说 :“ 哦 对 了 ， 我 能 接受 某 些 形式 的 实例 操控 ， 如 果 你 会 
其 中 一 种 的 话 ， 就 不 用 发 送 完整 的 文档 给 我 了 。” 在 A-IM 首部 中 ， 客 户 端 会 说 明 它 
知道 哪些 算法 可 以 把 差异 应 用 于 老 版 本 而 得 到 最 新 版 本 。 服 务 端 发 送 回 下 面 这 些 内 
容 : 一 个 特殊 的 响应 代码 一 一 226 IM Used， 告 知客 户 端 它 正在 发 送 的 是 所 请 求 对 象 
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的 实例 操控 ， 而 不 是 那个 完整 的 对 象 自 身 ;， — IM (Instance-Manipulation 的 缩写 ) 
首部 ， 说 明 用 于 计算 差异 的 算法 ， 新 的 ETag 首部 和 Delta-Base 首部 ， 说 明 用 于 
计算 差异 的 基线 文档 的 ETag (理论 上 ， 它 应 该 和 客户 端 之 前 请 求 里 的 If-None- 
Match 首部 中 的 ETag 相同 ! )。 表 15-5 中 总 结 了 差异 编码 使 用 的 首部 。 











GET /bigfile.html HTTP/1.1 
Date: Mon, 01 Feb 2001 12:03:00 GMT 















































它 就 告知 服务 器 自己 有 哪 





Expires: Mon, 01 Feb 2001 12:00:00 GMT 


客户 端 收 到 这 个 响应 并 把 

它 缓 存 起 来 。 第 二 天 ， 客 3 

户 端 又 要 访问 这 个 页 面 ， 。 响应 报 文 

它 发 现 自己 的 缓存 副本 已 HTTP/1.1 200 OK 

经 过 期 ， 于 是 就 向 服务 器 Content-type: text/html 
请 求 最 新 的 副本 。 因 藉 

[opcs LM Etag: abcdefghio9876AF 














份 副本 ， 并 说 明 自 己 愿意 
接受 差异 。 : 








客户 端 收 到 差异 并 将 
其 应 用 到 自己 缓存 的 
页 面 版 本 上 ， 生 成 了 
页 面 的 最 新 版 本 。 客 
户 端 还 要 将 BTag 更 





























差异 应 用 器 


Hello,welcome 
to Joe's Hardware 
store.Today's special 
is on chisels. 



































ios Bi Se at 7 7 | Del 





异 请 求 报 文 





GET /bigfile.html HTTP.1.1 
If-None-Match: abcdefghio9876AF 


A-IM: diffe 


Date: Tue, 02 Feb 2001 03:03:00 GMT 





差异 响应 报 文 














HTTP/1.1 226 IM Used 


IM: diffe 


Prag: zywxtuv123456BG 
a-base: abcdefghi09876AF 














2001 年 2 月 1 日 星期 一 
下 午 12 时 03 分 的 页 面 








Hello,welcome to 
Joe ' s Hardware store, 
"Today ' s special is on| 

hammers. 




















2001 年 2 月 2 日 星期 二 
上 午 3 时 03 分 的 页 面 





Hello,welcome to 

Joe's Hardware store. 

Today ' s special is 
on chisels. 














图 15-10 ”差异 编码 的 结构 
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表 15-5 差异 编码 所 用 的 首部 
首 部 描 述 
ETag 文档 每 个 实例 的 唯一 标识 符 。 由 服务 器 在 响应 中 发 送 ; 客户 端 在 后 继 请 求 的 
If-Match 首部 和 If-None-Match 首部 中 可 以 使 用 它 


If-None-Match 客户 端 发 送 的 请 求 首部 ， 当 且 仅 当 客户 端的 文档 版 本 与 服务 器 不 同时 ， 才 向 服务 





















































器 请 求 该 文档 
A-IM 客户 端 请 求 首部 ， 说 明 可 以 接受 的 实例 操控 类 型 
IM 服务 器 响应 首部 ， 说 明 作 用 在 响应 上 的 实例 操控 的 类 型 。 当 响应 代码 是 226 IM 




















应 
sed 上 时， 会 发 送 这 个 首部 
R 务 器 响应 首部 ， 说 明 用 于 计算 差异 的 基线 文档 的 ETag fü (应 当 与 客户 端 请 求 
HHJ If -None-Match 首部 里 的 ETag 相同 ) 


= 






































Delta-Base 





I am 























实例 操控 、 差 异 生成 器 和 差异 应 用 器 

客户 端 可 以 使 用 A-IM 首部 说 明 可 以 接受 的 一 些 实例 操控 的 类 型 。 服 务 器 在 IM 首部 
中 说 明 使 用 的 是 何 种 实例 操控 。 不 过 到 底 哪些 实例 操控 类 型 是 可 接受 的 呢 ? 它们 又 
是 做 什么 的 呢 ? 表 15-6 中 列 出 了 一 些 在 IANA 注册 的 实例 操控 类 型 。 


表 15-6 在 IANA 注册 的 实例 操控 类 型 




















类 型 说 — BB 
vcdiff 用 vcdiff 算法 计算 差异 * 
diffe 用 Unix 系统 的 aiff-e 命令 计算 差异 
gdiff 用 gdiff 算法 计算 差异 " 
gzip 用 gzip 算法 压缩 
deflate 用 deflate 算法 压缩 
range 用 在 服务 器 的 响应 中 ,说明 响应 是 针对 范围 选择 得 到 的 部 分 内 容 
identity 用 在 客户 端 请 求 中 的 A-IM 首部 中 ， 说 明 客 户 端 愿意 接受 恒 等 实 例 操 控 


























a: 因特网 草案 draft-korn-vcdiff-01 中 描述 了 vcdiff 算法 。 该 规范 在 2002 年 初期 由 IESG (Internet 
Engineering Steering Group， 因 特 网 工程 指导 组 ) 批准 ， 将 很 快 以 RFC 的 形式 发 布 。( 译 注 : 
vcdiff 的 规范 由 RFC3284 发 布 。) 

b: http://www.w3.org/TR/NOTE-gdiff-19970901.html 描述 了 gdiff 算法 。 



































图 15-10 中 ， 服 务 器 侧 的 “差异 生成 器 ”根据 基线 文档 和 该 文档 的 最 新 实例 ， 用 客 
户 端 在 A-IM 首部 中 指明 的 算法 计算 它们 之 间 的 差异 。 客 户 端 侧 的 “差异 应 用 器 ” 
得 到 差异 ， 将 其 应 用 于 基线 文档 ， 得 到 文档 的 最 新 实例 。 例 如 ， 如 果 产 生 差 异 的 算 
法 是 Unix 系统 的 diff-e 命令 ， 客 户 端 就 可 以 用 Unix 系统 中 的 文本 编辑 器 ed 提供 的 
功能 来 应 用 差异 ,因为 aiff-e <filel> <file2> 产 生 了 一 系列 ed 命令 来 把 <filel> 

















转化 为 -file2>。ed 是 一 个 非常 简单 的 编辑 器 ,支持 一 些 命令 。 在 图 15-10 的 例子 中 ， 
5c 说 明 要 删除 基线 文档 的 第 5$ 行 ， 而 chisels.<cr>. 说明 要 添加 chisels.， 就 这 么 
简单 。 对 于 更 大 的 改动 ， 会 产生 更 复杂 的 指令 。Unix 系统 的 diff-e 算法 是 对 文件 
进行 逐 行 比较 的 ， 这 对 于 文本 文件 没 问 题 ， 但 并 不 适合 二 进 制 文件 。vcdiff 算法 更 强 
大 ， 对 于 非 文 本 文件 也 适用 ， 并 且 产 生 的 差异 比 aiff-e 要 小 。 


差异 编码 的 规范 中 详细 定义 了 A-IM 和 IM 首部 的 格式 。 在 这 里 ， 我 们 只 要 知道 这 
些 首部 中 可 以 说 明 多 个 实例 操控 (并 可 以 带 有 相关 的 质量 值 ) 就 够 了 。 在 返回 给 

户 端 之 前 ， 文 档 可 以 经 过 多 种 实例 操控 ， 这 样 可 以 获得 最 大 程度 的 压缩 。 例 如 ， 用 
vcdiff 算法 产生 的 差异 随后 可 以 再 用 gzip 算法 压缩 。 于 是 服务 器 的 响应 中 就 含有 
IM:vcdiff, gzip 首部 。 客 户 端 应 当先 对 内 容 进 行 gunzip， 再 把 得 到 的 差异 应 用 
到 自己 的 基线 页 面 上 ， 这 样 才 能 生成 最 终 的 文档 。 


差异 编码 可 以 减少 传输 次 数 ， 但 实现 起 来 可 能 比较 麻烦 。 设 想 一 下 页 面 改动 频繁 ， 
而 且 有 很 多 不 同 的 人 都 在 访问 的 情形 。 支 持 差异 编码 的 服务 器 必须 保存 页 面 随时 间 
变化 的 所 有 不 同 版 本 ， 这 样 才能 指出 最 新 版 本 与 所 请 求 的 客户 端 持 有 的 任意 版 本 之 
间 的 差异 。( 如 果 文 档 变化 频繁 ， 而 且 有 很 多 客户 端 都 在 请 求 文档 ， 那 它们 就 会 获得 
文档 的 不 同 实 例 。 随 后 当 它 们 再 向 服务 器 发 起 请 求 时 ， 它 们 将 请 求 它 们 所 持 有 的 版 
本 与 最 新 版 本 之 间 的 差异 。 为 了 能 够 只 向 它们 发 送 变化 的 部 分 ， 服 务 器 必须 保存 所 
有 客户 端 曾经 持 有 过 的 版 本 。) 要 降低 提交 文档 时 的 延迟 时 间 ， 服 务 器 必须 增加 磁盘 
空间 来 保存 文档 的 各 种 旧 的 实例 。 实 现 差异 编码 所 需 的 额外 磁盘 空间 可 能 很 快 就 会 
将 减少 传输 量 获得 的 好 处 抵消 掉 。 


15.11 更 多 信息 


关于 实体 和 编码 方面 的 更 多 信息 ， 请 参考 以 下 资源 。 





























* http://www.ietf.org/rfc/rfc2616.txt 
RFC 2616， 也 就 是 HTTP/1.1 版 的 规范 ， 是 实体 主体 管理 和 编码 方面 的 主要 参考 。 


° http://www.ietf.org/rfc/rfc3229.txt 
RFC 3229, “Delta Encoding in HTTP" (“HTTP 中 的 差异 编码 ”)， 说 明了 如 何 通 
过 扩展 HTTP/1.1 来 支持 差异 编码 。 


° Introduction to Data Compression" (《 数 据 压缩 导论 》) 
这 本 书 的 作者 是 Khalid Sayood， 出 版 商 为 Morgan Kaufmann Publishers。 该 书 介 
绍 了 几 种 HTTP 内 容 编 码 支 持 的 压缩 算法 。 














注 11: 本 书 影印 版 由 人 民 邮 电 出 版 社 出 版 。( 编 者 注 ) 
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http://www .ietf.org/rfc/rfc1521.txt 
RFC 1521, “Multipurpose Internet Mail Extensions, Part One: Mechanisms for 





Specifying and Describing the Format of Internet Message Bodies" (^ Z JH 3& K 
特 网 邮件 扩展 ， 第 一 部 分 : 规定 和 描述 因特网 报 文 主体 格式 的 机 制 ”)， 描 述 了 
MIME 主体 的 格式 。 这 份 参考 材料 很 有 用 ， 因 为 HTTP 从 MIME 中 借用 了 大 量 
内 容 。 设 计 这 份 文档 的 目的 ， 就 是 为 了 提供 在 单一 报 文中 包含 多 个 对 象 的 各 种 设 
施 ， 比 如 用 US-ASCII 之 外 的 字符 集 来 表示 主体 文本 ， 表 示 多 种 字体 格式 的 文本 
消息 以 及 表示 非 文本 类 的 信息 ， 比 如 图 像 和 声音 片段 等 。 








http://www ietf.org/rfc/rfc2045.txt 

RFC 2045, “Multipurpose Internet Mail Extensions, Part One: Format of Internet 
Message Bodies”( “多 用 途 因特网 邮件 扩展 ， 第 一 部 分 : 因特网 报 文 主体 的 格 
W”), HUE THRHR MIME 格式 报 文 结构 的 各 种 首部 ， 其 中 许多 都 和 HTTP 
中 的 用 法 类 似 或 相同 。 


http://www .ietf.org/rfc/rfc1864.txt 

RFC 1864, "The content -MD5 Header Field" ("Content-MDs 首部 字段 >) d 
fit fH content -Mp5 首部 字段 来 做 报 文 完 整 性 检查 的 行为 及 用 途 方 面 的 一 些 历史 
细节 。 


http://www ietf.org/rfc/rfc3230.txt 
RFC 3230, "Instance Digests in HTTP" (“HTTP 中 的 实例 摘要 ”)， 描 述 了 对 
HTTP 实体 摘要 处 理 的 改进 ， 解 决 了 content-MD5 中 存在 的 各 种 问题 。 











386 | 第 15 章 


第 16 章 





国际 化 








370 








每 天 有 上 亿 的 人 用 数 百 种 语言 写 着 各 种 文档 。 为 了 真正 实现 万 维 网 的 目标 ，HTTP 
要 能 够 传输 和 处 理 用 多 种 语言 和 字母 表 编 写 的 国际 性 文档 。 





本 章 池 盖 网 站 国际 化 方面 的 两 个 主要 问题 : 字符 集 编码 (character set encoding) 和 
语言 标记 (language tag), HTTP 应 用 程序 使 用 字符 集 编码 请 求 和 显示 不 同 字母 表 中 
的 文本 ， 它 们 使 用 语言 标记 根据 用 户 所 理解 的 语言 来 说 明 并 限制 内 容 。 而 在 本 章 的 
最 后 将 讨论 多 语言 URI 和 日 期 格式 。 


本 章 主要 内 容 : 

° 讲解 HTTP 如 何 与 多 语言 字母 表 的 方案 和 相关 标准 进行 交互 ， 

。 快速 概览 术语 、 技 术 和 标准 ， 以 帮助 HTTP 编程 人 员 正确 理解 (熟悉 字符 编码 的 
读者 可 以 跳 过 本 市 ) ， 

° 解释 对 各 种 语言 的 标准 命名 系统 ， 以 及 标准 化 的 语言 标记 如 何 描述 和 选择 内 容 ， 

概述 国际 性 的 URI 要 遵循 的 规则 和 注意 事项 ， 

简要 讨论 日 期 格式 和 其 他 国际 化 方面 的 问题 。 


16.1 HTTP 对 国际 性 内 容 的 支持 


HTTP 报 文中 可 以 承载 以 任何 语言 表示 的 内 容 ， 就 像 它 能 承载 图 像 、 影 片 ， 或 任何 
类 型 的 媒体 那样 。 对 HTTP 来 说 ， 实 体 主体 只 是 二 进 制 信息 的 容器 而 已 。 

为 了 支持 国际 性 的 内 容 ， 服 务 器 需要 告知 客户 端 每 个 文档 的 字母 表 和 语言 ， 这 样 客 
户 端 才 能 正确 地 把 文档 中 的 信息 解 包 为 字符 并 把 内 容 呈现 给 用 户 。 


























服务 器 通过 HTTP 协议 的 Content-Type 首部 中 的 charset 参数 和 Content- 
Language 首部 告知 客户 端 文档 的 字母 表 和 语言 。 这 些 首部 描述 了 实体 主体 的 “ 信 
息 盒 子 ”里 面 装 的 是 什么 ， 如 何 把 内 容 转换 成 合适 的 字符 以 便 显示 在 屏幕 上 以 及 里 
面 的 词语 表示 的 是 哪 种 语言 。 


同时 ， 客 户 端 需要 告知 服务 器 用 户 理解 何 种 语言 ， 浏 览 器 上 安装 了 何 种 字母 表 编 码 
算法 。 客户 端 发 送 Accept-Charset 首部 和 Accept-Language 首部 ， 告知 服务 器 
它 理 解 哪些 字符 集 编码 算法 和 语言 以 及 其 中 的 优先 顺序 。 

下 面 的 HTTP 报 文中 的 这 些 Accept 首部 可 能 是 母语 为 法 语 的 人 发 出 的 。 他 喜欢 
使 用 母语 ， 但 也 会 说 一 点 儿 英 语 ， 他 的 浏览 器 支持 iso-8859-1 西欧 字符 集 编码 和 
UTF-8 Unicode 字符 集 编码 ; 





Accept-Language: fr, en;qs0.8 
Accept-Charset: iso-8859-1, utf-8 
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参数 “gq=0.8” 是 质量 因子 (quality factor) ， 说 明 英 语 的 优先 级 (0.8) 比 法 语 低 
(默认 值 是 1.0). 


16.2 ”字符 集 与 HTTP 


现在 我 们 进入 主题 ， 开 始 研究 网 站 国际 化 中 最 重要 〈 且 令 人 困惑 ) 的 方面 一 一 各 国 
的 字母 表 和 它们 的 字符 集 编码 。 


Web 字符 集 标准 很 有 些 令 人 迷惑 。 由 于 必须 阅读 很 多 标准 文档 ， 其 中 术语 复杂 且 不 
一 致 ， 再 加 上 对 外 语 不 太 熟 悉 ， 很 多 人 首次 尝试 编写 国际 化 的 网 站 软件 时 ， 都 被 搞 
糊涂 了 。 本 节 和 下 一 节 应 该 能 让 读者 更 容易 地 学 会 在 HTTP 中 使 用 字符 集 。 


16.2.1 字符 集 是 把 字符 转换 为 二 进 制 码 的 编码 

HTTP 字符 集 的 值 阅 明 如 何 把 实体 内 容 的 二 进 制 码 转换 为 特定 字母 表 中 的 字符 。 每 
个 字符 集 标记 都 命名 了 一 种 把 二 进 制 码 转换 为 字符 的 算法 (反之 亦 然 )。 字 符 集 标记 
在 由 IANA 维护 (参见 http://www.iana.org/assignments/character-sets) 的 MIME ^£ 
符 集注 册 机 构 进行 了 标准 化 。 附 录 H 中 概述 了 其 中 的 很 多 字符 集 。 

下 面 的 Content-Type 首部 告知 接收 者 ， 传 输 的 内 容 是 一 份 HTML x fF, H 
charset 参数 告知 接收 者 使 用 iso-8859-6 阿拉 伯 字 符 集 的 解码 算法 把 内 容 中 的 二 进 
制 码 转换 为 字符 : 


Content-Type: text/html; charset=iso-8859-6 
iso-8859-6 的 编码 算法 把 8 位 值 域 映 射 为 拉丁 字母 和 阿拉 伯 字 母 ， 以 及 数字 ， 标 点 和 
其 他 符号 '。 例 如 ， 在 图 16-1 中 ， 突 出 显示 的 二 进 制 码 的 值 是 225， 它 在 iso-8859-6 
中 被 映射 到 阿拉 伯 字 母 “FEH” (读音 类 似 英语 字母 FE) 。 


























HTTP/1.1 200 OK 
Content-type: text/html; charset=iso-8859-6 | iso-8859-6 字 符 集 对 11100001 
Content-length: 18572 (十 进 制 225) 解码 

Content-language: ar 












































00100101110100100101001001111101 e 
01010010100111101001111110000110 ( ° 
01010101011100000101010001010011 
01011111001000010101111101010... 阿拉 伯 字 母 FEH 
实体 主体 
以 二 进 制 码 形式 显示 的 HITP 响 应 内 容 字符 











16-1 charset 参数 告知 客户 端 如 何 把 内 容 中 的 二 进 制 码 转换 为 字符 








注 1: 与 汉语 、 日 语 不 同 的 是 , 阿拉 伯 语 中 只 有 28 个 字符 。8 位 空间 有 256 个 不 同 的 值 , 足以 容纳 拉丁 字符 、 
阿拉 伯 字 符 以 及 其 他 符号 。 
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有 些 字符 编码 (比如 UTF-8 和 iso-2022-jp) 更 加 复杂 ， 它 们 是 可 变 长 (variable- 
length) 编码 ， 也 就 是 说 每 个 字符 的 位 数 都 是 可 变 的 。 这 种 类 型 的 编码 允许 使 用 额外 
的 三 进 制 位 表示 拥有 大 量 字 符 的 字母 表 (比如 汉语 和 日 语 )， 仅 用 较 少 的 二 进 制 位 来 
表示 标准 的 拉丁 字符 。 





16.2.2 ”字符 集 和 编码 如 何 工作 
现在 我 们 来 看 看 字符 集 和 编码 到 底 做 了 什么 。 





我 们 想 把 文档 中 的 二 进 制 码 转换 为 字符 以 便 显 示 在 屏幕 上 。 但 由 于 有 很 多 不 同 的 字 
母 表 ， 也 有 很 多 不 同 的 方法 把 字符 编码 成 二 进 制 码 (这 些 方法 各 有 优 缺 点 ) ， 我 们 需 
要 一 种 标准 方法 来 描述 并 应 用 把 二 进 制 码 转 换 为 字符 的 解码 算法 。 


把 二 进 制 码 转 换 为 字符 要 经 过 两 个 步骤 ， 如 图 16-2 所 示 。 





° 在 图 16-2a 中 ,文档 中 的 二 进 制 码 被 转换 成 字符 代码 ， 它 表示 了 特定 编码 字符 集 
中 某 个 特定 编号 的 字符 。 在 这 个 例子 里 ， 解 码 后 的 字符 代码 是 数字 编号 225, 


° 在 图 16-2b 中 ， 字 符 代 码 用 于 从 编码 的 字符 集中 选择 特定 的 元 素 。 在 iso-8859-6 
中 ， 值 225 对 应 阿拉 伯 字 母 “FEH”。 在 步 又 a 和 ob 中 使 用 的 算法 取决 于 MIME 
的 charset 标记 。 








按 iso-8859-6 编 
码 的 字符 集 











65 大 写 拉丁 字母 A 
66 大 写 拉 丁字 母 B 











224 | 阿拉 伯 语 中 的 占 位 对 齐 字符 
225 阿拉 伯 字 母 FEH 
226 阿拉 伯 字 母 QRAF 













































































227| 阿拉伯 字 母 KAF 
数据 二 进 制 码 字符 代码 i 唯一 字符 字形 
...11100001 oO ( »| 225 » "阿拉 伯 字 母 FEH o 
7 tiso. 8859-6 3 ' 
ial 字符 集中 ) n 
pe 字体 和 显示 逻辑 a 
:8859-6 中 的 编码 方案 )i :i 


























`、 (a) 使 用 编码 方案 解码 b) 使 用 编码 后 的 ” ,4 (c) 使 用 字体 和 版 式 
De te 字符 ” 软件 找到 显示 字形 














图 16-2 HTTP 协议 中 的 charset 是 字符 编码 方案 和 编码 后 字符 集 的 组 合 
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国际 化 字符 系统 的 关键 目标 是 把 语义 (字母 ) 和 表示 (图 形 化 的 显示 形式 ) 隔离 
FR. HTTP 只 关心 字符 数据 和 相关 语言 及 字符 集 标签 的 传输 。 字 符 形状 的 显示 
是 由 用 户 的 图 形 显示 软件 (包括 浏览 器 、 操 作 系 统 、 字 体 等 ) 完成 的 ， 如 图 16-2c 
所 示 。 





16.2.3 字符 集 不 对 ， 字 符 就 不 对 
如 果 客 户 端 使 用 了 错误 的 字符 集 参 数 ， 客 户 端 就 会 显示 一 些 奇 怪 的 错乱 字符 。 假 设 
浏览 器 从 主体 中 获得 值 225 (二 进 制 为 11100001)。 
。 如 果 浏 览 器 认为 主体 是 用 iso-8859-1 西欧 字符 编码 的 ， 它 将 会 显示 带 有 重音 符号 
的 小 写 拉丁 字母 “a”: 
F 


a 


° 如 果 浏 览 器 使 用 iso-8859-6 阿拉 伯 编 码 ， 它 将 会 显示 阿拉 伯 字 母 “FEH”: 


i 


—9 


° 如 果 浏 览 器 使 用 iso-8859-7 希腊 编码 ， 它 将 会 显示 小 写 的 希腊 字母 “Alpha”: 


以 


° AR DUI V zs EH iso-8859-8 希 伯 来 编码 ， 它 将 会 显示 和 希 伯 来 字母 “BET”:， 


2 


16.2.4 标准 化 的 MIME charset 值 

特定 的 字符 编码 方案 和 特定 的 已 编码 字符 集 组 合成 一 个 MIME 字符 集 (MIME 
charset), HTTP 在 Content-Type 和 Accept-Charset 首部 中 使 用 标准 化 的 
MIME charset 标记 。MIME charset 的 值 都 会 在 IANA 注册 。 ° # 16-1 列 出 了 文 
档 和 浏览 器 所 使 用 的 一 些 MIME charset 编码 方案 。 更 完整 的 列表 参见 附录 H. 








注 2: 请 从 http://www.iana.org/numbers.htm 获取 注册 的 charset 值 的 完整 列表 。 
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表 16-1 MIME charset 编码 标记 


MIME charset 值 


fü R 
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us-ascii 


iso-8859-1 


iso-8859-2 


iso-8859-5 


iso-8859-6 


iso-8859-7 
iso-8859-8 


iso-8859-15 


iso-2022-jp 


euc-jp 


Shift JIS 


koi8-r 


utf-8 


windows-1252 


这 是 个 著名 的 字符 编码 ， 在 1968 年 就 已 标准 化 ， 称 为 ANSI_X3.4-1968。 它 也 称 
为 ASCII， 但 最 好 还 是 加 上 “US” 前 缀 ， 因 为 ISO 646 中 有 某 些 国 际 化 的 变 体 ， 
它们 修改 了 一 些 字 符 。US-ASCI 把 7 位 数值 映射 到 128 个 字符 上 。 最 高 位 未 使 用 


iso-8859-1 是 对 ASCI 的 8 位 扩展 ， 以 支持 西欧 的 多 种 语言 。 它 使 用 了 最 高 位 以 
包含 更 多 西欧 字符 ， 而 保持 ASCII 的 编码 部 分 (0 ~ 127) 没有 变 。 它 也 称 为 iso- 
latin-1， 或 简称 为 Latin1 


对 ASCI 扩展 以 包括 中 欧 和 东欧 语言 中 的 字符 ， 包 括 捷克 、 波 兰 、 罗 马 尼 亚 。 它 
也 称 为 iso-latin-2 


对 ASCII 扩展 以 包括 斯 拉夫 语 字 符 ， 使 用 这 些 字符 的 语言 包括 俄语 、 塞 尔 维 亚 语 
和 保加利亚 语 


对 ASCI 扩展 以 包括 阿拉 伯 语 字符 。 因 为 阿拉 伯 语 字符 的 显示 形状 会 随 它 在 单词 
中 的 位 置 而 变化 ， 阿 拉 伯 语 的 显示 引 敬 需要 分 析 上 下 文 来 为 每 个 字符 生成 正确 的 
形状 

XF ASCH 扩展 以 包括 现代 希腊 语 字符 。 以 前 称 为 ELOT-928 或 ECMA-118:1986 


对 ASCH 扩展 以 包括 希 伯 来 语 和 意 第 结语 (这 两 种 语言 都 是 犹太 人 所 用 的 ) 的 
字符 

更 新 了 iso-8859-1， 用 遗漏 的 法 语 和 芬兰 语 字母 赫 换 了 一 些 不 太 常 用 的 标点 符号 
和 分 数 符号 ， 并 用 新 的 欧元 符号 替换 国际 货币 符号 。 这 种 字符 集 简称 为 Latin0， 
可 能 将 来 会 灰 代 iso-8859-1， 作 为 欧洲 的 首选 默认 字符 集 
iso-2022-jp 是 在 日 语 的 电子 邮件 和 网 页 内 容 中 广泛 使 用 的 编码 。 它 是 一 种 变 长 纺 
码 方案 ， 支 持 用 单字 节 表 示 ASCI 字符 ， 但 使 用 3 字符 的 模 态 转 义 序列 在 3 # H 
语 字符 集中 切换 


euc-jp 是 遵循 ISO 2022 的 变 长 编码 ， 它 用 显 式 的 二 进 制 码 模式 来 标识 每 个 字符 ， 
不 需要 模 态 及 转 义 序列 。 它 使 用 单字 节 、2 字 节 以 及 3 字 节 的 序列 来 标识 多 个 日 
语 字 符 集中 的 字符 

该 编码 起 初 是 由 微软 公司 开发 的 ， 有 时 称 为 SJIS 或 MS Kanji。 出 于 保持 历史 兼 
容 性 方面 的 原因 ， 它 有 点 儿 复 杂 ， 并 且 不 能 映射 所 有 的 字符 ， 不 过 它 还 是 用 的 很 
普遍 

KOI8-R 是 为 俄语 设计 的 流行 的 8 位 因特网 字符 集 编 码 ， 在 IETF RFC 1489 中 定 
义 。 这 些 大 写字 母 是 Code for Information Exchange, 8 bit, Russian (俄语 8 位 信 
息 交 换代 码 ) 的 首 字母 缩 略 形式 

UTF-8 是 一 种 用 来 表示 UCS (Unicode) 的 常用 变 长 字符 编码 方案 ，UCS 的 意 
思 是 Universal Character Set of the world's characters (世界 字符 统一 字符 集 )。 
UTF-8 使 用 变 长 的 编码 来 表示 字符 代码 值 ， 每 个 字符 使 用 1 ~ 6 个 字 节 。UTEF-8 
的 主要 特点 之 一 就 是 保持 对 普通 的 7 位 ASCII 文本 的 后 向 兼容 性 
微软 公司 把 它 编 码 后 的 字符 集 称 为 code page (代码 页 ) 。Windows 的 代码 页 1252 
(也 称 为 CP1252 或 WinLatinl) 是 对 iso-8859-1 的 扩展 




















































































































































































































16.2.5 ” Content-Type 首 部 和 charset 首 部 以 及 META 标 志 
Web 服务 器 通过 在 content -Type 首部 中 使 用 charset 参数 把 MIME 字符 集 标 记 
发 送 给 客户 端 : 

Content-Type: text/html; charset=iso-2022-jp 
如 果 没 有 显 式 地 列 出 字符 集 ， 接 收 方 可 能 就 要 设法 从 文档 内 容 中 推断 出 字符 集 。 对 
+T HTML 内 容 来 说 ， 可 以 在 描述 charset 的 «META HTTP-EQUIV="Content- 
Type"> 标记 中 找到 字符 集 。 
ff] 16-1 中 展示 了 HTML META 标记 如 何 把 字符 集 设 置 为 日 语 编码 iso-2022-jp。 如 
果 文 档 不 是 HTML 类 型 ， 或 其 中 没有 META Content-Type 标记 ， 软 件 可 以 设法 扫 
描 实 际 的 文本 ， 看 看 能 否 找 出 语言 和 编码 的 常见 模式 ， 以 此 推断 字符 编码 。 











例 16-1 可 以 在 HTML META 标记 中 规定 字符 编码 
<HEAD> 
«META HTTP-EQUIV-"Content-Type" CONTENT-"text/html; charset=iso-2022-jp"> 
«META LANG-"jp"- 
«TITLE»-A Japanese Document</TITLE> 
</HEAD> 
<BODY> 





如 果 客 户 端 无 法 推断 出 字符 编码 ， 就 假定 使 用 的 是 iso-8859-1。 


16.2.6 Accept-charset 首 部 


在 过 去 的 几 二 年间， 人 们 开发 了 成 千 上 万 种 字符 编 解码 方法 。 大 多 数 客户 端 不 可 能 
支持 所 有 这 些 不 同 的 字符 编码 和 映射 系统 。 


HTTP 客户 端 可 以 使 用 Accept -charset 请 求 首 部 来 明确 告知 服务 器 它 支持 哪些 字 
符 系统 。Accept-charset 首部 的 值 列 出 了 客户 端 支持 的 字符 编码 方案 。 例 如 ， 下 
面 的 HTTP 请 求 首 部 表明 ， 客 户 端 接 受 西欧 字符 系统 iso-8859-1 和 UTF-8 变 长 的 
Unicode 兼容 系统 。 服 务 器 可 以 随便 选择 这 两 种 字符 编码 方案 之 一 来 返回 内 容 。 





Accept-Charset: iso-8859-1, utf-8 
注意 ， 没 有 Content-Charset 这 样 的 响应 首部 和 Accept-Charset 请 求 首 部 匹 


配 。 为 了 和 MIME 标准 兼容 ， 响 应 的 字符 集 是 由 服务 器 通过 Content-Type 响应 首 
部 的 charset 参数 带 回 来 的 。 不 对 称 真是 太 粳 了 ， 不 过 需要 的 信息 倒是 都 有 了 。 
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16.3 多 语言 字符 编码 入 门 


前 一 节 描 述 了 客户 端 和 服务 器 是 如 何 分 别 在 HTTP 的 Accept-Charset 首部 和 
Content-Type 首部 的 charset 参数 中 携带 字符 编码 信息 的 。 对 于 工作 中 要 开发 大 
量 国际 化 应 用 的 HTTP 程序 员 来 说 ， 为 了 能 理解 技术 规范 和 相应 的 实现 软件 ， 需 要 
深入 地 理解 多 语言 字符 系统 。 


由 于 术语 很 复杂 且 不 一 致 ， 学 习 多 语言 字符 系统 不 太 容易 。 和 常常 需要 阅读 标准 文 
档 ， 而 且 我 们 可 能 对 工作 涉及 的 那些 语言 还 不 大 熟悉 。 本 节 是 对 字符 系统 及 其 标准 
的 概览 。 如 果 读 者 对 字符 编码 很 熟悉 ， 或 者 对 这 部 分 细节 不 感 兴趣 ， 可 以 直接 跳 到 
16.4 节 。 








16.3.1 字符 集 术语 
以 下 是 应 当 了 解 的 电子 化 字符 系统 的 8 个 术语 。 


=> kk 


。 字符 
字符 是 指 字母 、 数 字 、 标 点 、 表 意 文字 (比如 汉语 )、 符 号 ,或 其 他 文本 形式 的 
书写 “原子 ”。 由 统一 字符 集 (Universal Character Set, UCS, 它 的 非 正式 的 名 字 
是 Unicode ) 首创 ， 为 多 种 语言 中 的 很 多 字符 开发 了 一 系列 标准 化 的 文本 名 称 ， 
它们 常用 来 便捷 地 命名 字符 ， 而 且 不 会 与 其 他 字符 冲突 。” 











描述 字符 的 笔画 图 案 或 唯一 
有 多 个 字形 (参见 图 16-3). 


puna 


图 形 化 形状 。 如 果 一 个 字符 有 多 种 不 同 的 写法 ， 就 











。 编码 后 的 字符 

分 配给 字符 的 唯一 数字 编号 ， 这 样 我 们 就 可 以 操作 它 了 。 
。 代码 空间 

计划 用 于 字符 代码 值 的 整数 范围。 
。 代码 宽度 

每 个 (固定 大 小 的 ) 字符 代码 所 用 的 位 数 。 





。 字符 库 
特定 的 工作 字符 集 (全 体 字符 的 一 个 子 集 )。 





iE 3: Unicode 是 一 个 以 UCS 为 基础 而 成 立 的 商业 化 联合 组 织 ， 致 力 推广 商业 产品 。 
注 4: 字符 的 名 称 看 起 来 类 似 LATIN CAPITAL LETTER S 和 ARABIC LETTER QAF 的 形式 。 











~ 
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。 编码 后 的 字符 集 
组 成 字符 库 ( 从 全 球 的 字符 中 选 出 车 干 字符 ) 的 已 编码 字符 集 ， 并 为 每 个 字符 
分 配 代码 空间 中 的 一 个 代码 。 换 句 话说 ， 它 把 数字 化 的 字符 代码 映射 为 实际 的 
字符 。 

` 字符 编码 方案 
把 数字 化 的 字符 代码 编码 成 一 系列 二 进 制 码 (并 能 相应 地 反 向 解码 的 算法 。 字 
符 编 码 方案 可 用 来 减少 识别 字符 所 需要 的 数据 总 量 (压缩 )、 解 决 传输 限制 、 统 
一 重 双 编码 字符 集 。 


16.3.2 ”字符 集 的 命名 很 糟糕 

从 技术 上 说 ，MIME 中 的 charset 标记 (用 在 content-Type 首部 的 charset 
参数 中 和 Accept-charset 首部 中 ) 描述 的 压根 就 不 是 字符 集 。 MIME 中 的 
charset 值 所 命名 的 是 把 数据 位 映射 为 唯一 的 字符 的 一 整套 算法 。 它 是 字符 编码 方案 
(character encoding scheme) 和 编码 后 的 字符 集 (coded character set) 这 两 种 概念 
的 组 合 (参见 图 16-2). 

因为 关于 字符 编码 方案 和 编码 后 的 字符 集 方面 的 标准 都 已 经 发 布 过 了 ， 所 以 ， 这 个 
术语 的 使 用 是 很 草率 的 ， 很 容易 引起 混淆 “。 下 面 是 HTTP/1.1 的 作者 们 对 于 他 们 如 
何 使 用 这 些 术 语 的 介绍 (在 RFC2616 中 )。 





术语 “字符 集 ” 在 本 文档 中 是 指 一 种 方法 ， 它 可 以 把 一 系列 8 位 字 节 转换 
为 一 系列 字符 。 注 意 : 术语 “字符 集 ” 经 常 被 称 为 “字符 编码 ”。 但 由 于 
HTTP 和 MIME 共 享 同样 的 注册 信息 ， 术 语 也 能 共享 是 很 重要 的 。 


IETF 在 RFC 2277 中 也 采用 了 非 标 准 的 术语 。 





本 文档 中 使 用 术语 “字符 集 ” 来 表示 一 组 把 一 系列 8 位 字 节 转换 为 一 系列 
字符 的 规则 的 集合 ， 比 如 编码 后 的 字符 集 与 字符 编码 方案 的 组 合 。 这 与 
MIME 的 “charset=” 参 数 中 标识 符 的 用 法 相同 ， 并 且 已 在 IANA 的 字 
符 集 注册 表 中 注册 。( 注 意 这 不 是 在 其 他 标准 主体 ， 比 如 在 国际 标准 化 组 织 
ISO 中 使 用 的 术语 ) 。 





ik5: 更 糟糕 的 是 ，MIME 中 的 charset 标记 经 常会 从 特定 的 编码 后 字符 集 的 名 称 或 编码 方案 的 名 称 里 面 
选取 。 例 如 ，iso-8859-1 是 一 个 编码 后 字符 集 ( 它 为 一 个 包含 256 个 欧洲 字符 的 集合 分 配 了 数字 化 的 
代码 )， 但 MIME 用 charset 值 iso-8859-1 来 表示 一 种 8 位 的 、 对 编码 后 的 字符 集 恒 等 的 编码 。 这 
种 不 精确 的 术语 并 不 是 致命 的 问题 ， 但 在 阅读 标准 文档 的 时 候 ， 需 要 对 其 假设 用 法 保持 清醒 的 头脑 。 
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因此 ， 在 阅读 标准 文档 的 时 候 ， 要 保持 清醒 ， 这 样 才能 确切 地 知道 它 所 定义 的 到 底 
是 什么 。 现 在 我 们 已 经 将 相关 的 术语 介绍 完了 ， 接 下 来 更 仔细 地 研究 一 下 字符 、 字 
形 、 字 符 集 以 及 字符 编码 。 


16.3.3 字符 


字符 是 书写 的 最 基本 的 构建 单元 。 字 符 可 以 表示 字母 数字、 标点 、 表 意 符号 (E 
如 在 汉语 中 )、 数 学 符号 ， 或 其 他 书写 的 基本 单元 。 


字符 和 字体 以 及 风格 无 关 。 图 16-3 显示 了 同一 个 字符 (UCS 中 的 命名 是 LATIN 
SMALL LETTER A) 的 若干 变 体 。 尽 管 它们 的 笔画 图 案 和 风格 有 很 大 的 不 同 ， 但 母 
语 是 西欧 语言 的 读者 都 能 立刻 辨认 出 这 5 个 形状 是 同一 个 字符 。 


q a a Q %¿ 


图 16-3 一 个 字符 可 以 有 很 多 不 同 的 书写 形式 


在 很 多 书面 语 体 系 中 ， 根 据 一 个 字符 在 单词 中 位 置 的 不 同 ， 同 一 个 字符 也 会 有 不 同 
的 笔画 形状 。 例 如 ， 图 16-4 中 的 4 种 笔画 都 表示 字符 ARABIC LETTER AIN, "图 
16-4a 显示 了 AIN 作为 一 个 单独 的 字符 时 是 如 何 书写 的 。 图 16-4d 显示 的 是 AIN 在 
单词 开头 时 的 情形 。 图 16-4c 显示 了 AIN 在 单词 中 间 的 情形 ， 而 图 16-4b 显示 的 是 
AIN 在 单词 结尾 处 的 情形 
































(a) 独立 存在 (b) 位 于 结尾 处 (c) 位 于 中 间 (d) 位 于 起 始 处 


人 


这 些 不 同 的 字形 都 表示 同一 个 字符 ARABIC LETTER AIN) 

















16-4 单个 字符 ARABIC LETTER AIN 的 4 种 与 位 置 相 关 的 书写 形式 


16.3.4 字形 、 连 笔 以 及 表示 形式 
不 要 把 字符 和 字形 混淆 。 字 符 是 唯一 的 、 抽 象 的 语言 “原子 ”。 字 形 是 画 出 每 个 字符 
时 使 用 的 特定 方式 。 根 据 艺 术 形 式 和 手法 的 不 同 ， 每 个 字符 可 以 有 很 多 不 同 的 字形 。” 














注 6: AIN 的 读音 有 些 像 ayine 的 发 音 ， 但 发 音 朝向 喉 吡 后 部 。 

DET. 注意， 阿拉 伯 语 的 单词 是 从 右 向 左 书写 的 。 

注 8: 很 多 人 用 术语 “字形 ”来 表示 最 终生 成 的 位 图 图 像 ， 但 从 技术 上 说 ， 字 形 是 字符 的 内 在 形状 ， 与 字体 
和 次 要 的 艺术 形式 无 关 。 进 行 这 种 区 分 不 太 容易 ， 对 我 们 的 目的 也 没有 什么 用 处 。 
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同样 ， 也 不 要 把 字符 与 表示 形式 混淆 起 来 。 为 了 让 书法 作品 更 好 看 ， 很 多 和 手写体 和 
字体 允许 人 们 把 相 邻 的 字符 漂亮 地 连 写 起 来 ， 称 为 连 笔 (ligatures)， 这 样 两 个 字 
符 就 平滑 地 连接 在 一 起 了 。 母 语 为 英语 的 作者 常 把 F 和 I 结合 为 FI 连 笔 (参见 图 
16-5a 和 图 16-5b)， 而 阿拉 伯 语 的 作者 常 把 字符 “LAM” 和 “ALIF” 结 合 为 一 种 很 
优雅 的 连 笔 (参见 图 16-5c 和 图 16-5d)。 
























































(a) 未 使 用 FI 连 笔 — (b) 用 了 FI 连 笔 。 (c) 未 使 用 LA 连 笔 (gd) 用 了 LA 连 笔 


J J e fi le 加 Jj y LAM 和 ALIF 


图 16-5 连 笔 是 相 邻 字符 的 另 一 种 风格 的 表示 形式 ， 并 非 新 的 字符 


里 给 出 一 般 的 规则 : 如 果 用 一 种 字形 替代 另 一 种 的 时 候 ， 文 本 的 意思 变 了 ， 那 这 
“字形 就 是 不 同 的 字符 。 否 则 ， 它 们 就 是 同一 个 字符 的 不 同 风格 的 表示 形式 。 


16.3.5 ”编码 后 的 字符 集 
根据 RFC 2277 和 2130 的 定义 ， 编 码 后 的 字符 集 把 整数 映射 到 字符 。 编 码 后 的 
字符 集 经 常用 数组 来 实现 “， 通 过 代码 数值 来 索引 (参见 图 16-6)。 数 组 的 元 素 就 


El, AX z 11 


ÆF o 











UE 5x 





编码 后 的 字符 集 US-ASCII 
FL of P PCT P OPT T 
HF-FH-HEHHEEEH 











HRD TD 




















| 
代码 68 (0x44) | 
| 

















图 16-6 ”可 以 把 编码 后 的 字符 集 看 作 数 组 ， 把 数值 化 的 代码 映射 到 字符 


下 面 我 们 来 看 一 些 重要 的 编码 后 的 字符 集 标准 ， 包 括 具 有 历史 意义 的 US-ASCII 字符 
集 、ASCII 的 iso-8859 扩展 、 日 文 的 JIS X 0201 字符 集 以 及 统一 字符 集 (Universal 
Character Set，Unicode ) 。 





注 9; 语义 和 表示 方式 之 间 的 区 别 并 不 总 是 很 清晰 的 。 为 了 实现 的 方便 ， 已 经 为 同一 个 字符 的 某 些 表 示 变 体 
分 配 了 不 同 的 字符 。 不 过 我 们 还 是 尽量 要 避免 这 种 做 法 。 
注 10: 数组 可 以 是 多 维 的， 这 样 代码 数字 中 的 不 同 二 进 制 码 就 可 以 索引 到 数组 的 不 同 维 。 

注 11: 图 16-6 使 用 了 一 个 网 格 来 表示 编码 后 的 字符 集 。 网 格 中 的 每 个 元 素 都 包含 一 个 字符 图 像 。 这 些 图 像 
应 看 作 是 符号 ,图 像 *D? 是 字符 LATIN CAPITAL LETTER D 的 简称 ,而 不 是 任何 特定 的 图 形 化 字 姑 
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1. US-ASCIl: 所 有 字符 集 的 始祖 

ASCI 是 最 著名 的 编码 后 字符 集 ， 早 在 1968 年 就 由 ANSI 在 标准 X3.4,“ 美 国标 准 信 
息 交 换代 码 ”(American Standard Code for Information Interchange) 中 进行 了 标准 化 。 
ASCH 的 代码 值 只 是 从 0 到 127， 因 此 只 需要 7 个 二 进 制 码 就 可 以 覆盖 代码 空间 。ASCII 
的 推荐 名 称 是 US-ASCI， 这 样 可 以 和 那些 7 位 字符 集 的 一 些 国际 化 变 体 区 分 开 来 。 


HTTP 报 文 (首部 、URI S£) 使 用 的 字符 集 是 US-ASCII。 











2. iso-8859 

iso-8859 字符 集 标 准 是 US-ASCII 的 8 位 超 集 ， 使 用 二 进 制 码 的 高 位 增加 了 一 些 国 
际 化 书面 字符 。 由 额外 的 二 进 制 码 提供 的 附加 空间 (多 了 128 个 代码 ) 还 不 够 大 ， 
甚至 都 不 够 所 有 的 欧洲 字符 使 用 ， 更 不 用 说 亚 训 字 符 了 。 因 此 iso-8859 为 不 同 地 区 
定制 了 不 同 的 字符 集 ， 如 下 所 示 。 

















iso-8859-1 西欧 语言 A, SE. DELE) 

iso-8859-2 中 欧 和 东欧 语言 〈 人 例如， 捷克、 波兰 ) 
iso-8859-3 南欧 语言 

iso-8859-4 北欧 语言 (例如 ， 拉 托 维 亚 ， 立 陶 宛 ， 格 陵 兰 ) 
iso-8859-5 斯 拉夫 语 (例如 ， 保加利亚、 俄罗斯 、 塞 尔 维 亚 ) 
iso-8859-6 阿拉 伯 语 

iso-8859-7 希腊 语 

iso-8859-8 PARE 

iso-8859-9 TRAE 

iso-8859-10 日 耳 曼 和 斯 堪 的 纳 维 亚 语言 (例如 ， 冰 上 岛 、 因 纽 特 ) 
iso-8859-15 Xj iso-8859-1 的 修改 ， 包 括 了 新 的 欧元 字符 


iso-8859-1 也 称 为 Latin1， 是 HTML 的 默认 字符 集 。 可 以 用 它 来 表示 大 多 数 西 欧 
语言 的 文本 。 因 为 iso-8859-15 中 包含 了 新 的 欧元 符号 ， 有 过 一 些 用 它 来 代 赫 iso- 
8859-1 并 作为 HTTP 默认 编码 后 字符 集 的 讨论 。 然 而 ， 由 于 iso-8859-1 已 经 被 广泛 
采用 ， 要 大 范围 地 变更 到 iso-8859-15 恐怕 不 是 短 时 间 内 可 以 完成 的 。 


3. JIS X 0201 


JIS X 0201 是 把 ASCII 扩展 到 日 文 半 宽 片 假名 字符 的 一 个 极 小 化 的 字符 集 。 半 宽 
片 假 名 字符 最 早 用 在 日 文 电报 系统 中 。JIS X 0201 常常 被 称 作 JIS Roman，JIS 是 
“Japanese Industrial Standard” (日 文 工 业 化 标准 ) 的 缩写 。 





4. JIS X 0208 与 JIS X 0212 

日 文中 包括 数 千 个 来 自 几 个 书面 语系 统 中 的 字符 。 尽 管 可 以 (很 痛苦 地 ) 勉强 只 使 
用 JIS X 0201 中 的 那 63 个 基本 的 片 假 名 字符 ， 但 实际 使 用 中 需要 远 比 这 个 更 完整 
的 字符 集 。 
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JIS X 0208 字符 集 是 首 个 多 字 节 日 文字 符 集 ， 它 定义 了 6879 个 编码 的 字符 ， 其 中 大 
多 数 是 来 源 于 中 文 的 日 本 汉字 。JIS X 0212 字符 集 又 扩充 了 6067 个 字符 。 


5. UCS 

UCS (Universal Character Set， 统 一 字符 集 ) 是 把 全 世界 的 所 有 字符 整合 到 单一 的 
编码 后 字符 集 的 环球 标准 化 成 果 。UCS 由 ISO 10646 定义 。Unicode 是 遵循 UCS 标 
准 的 商业 化 联合 组 织 。UCS 具有 能 容纳 百 万 以 上 字符 的 代码 空间 ， 不 过 基本 集合 只 
有 大 约 5 万 个 字符 。 


16.3.6 ”字符 编码 方案 
字符 编码 方案 规定 如 何 把 字符 的 代码 数字 打包 装 和 内容 比特 ， 以 及 在 另 一 端 如 何 将 
其 解 包 回 字符 代码 (参见 图 16-7)。 字 符 编码 方案 有 以 下 3 种 主要 类 型 。 








。 固定 宽度 
国定 宽度 方式 的 编码 用 固定 数量 的 比特 表示 每 个 编码 后 的 字符 。 它 们 能 被 快速 处 
理 ， 但 可 能 会 浪费 空间 。 





。 TÈRRA (无 模 态 ) 
可 变 宽度 方式 的 编码 对 不 同 的 字符 代码 数字 采用 不 同 数 量 的 比特 。 对 于 常用 字 
符 ， 这 样 可 以 减少 需要 的 位 数 ， 而 且 还 能 在 允许 使 用 多 字 节 来 表示 国际 性 字符 的 
同时 ， 保 持 对 传统 8 位 字符 集 的 兼容 性 。 


° TER (有 模 态 ) 
有 模 态 的 编码 使 用 特殊 的 “ 转 义 ”模式 在 不 同 的 模 态 之 间 切 换 。 例 如 ， 可 以 用 有 
模 态 的 编码 在 文本 中 使 用 多 个 互相 有 重合 的 字符 集 。 有 模 态 的 编码 处 理 起 来 比较 
复杂 ， 但 它们 可 以 有 效 地 支持 复杂 的 书写 系统 


d HTTP/1.1 200 OK d 
[Ds | Content-type: text/html; charset-iso-2022-jp JON 


Content-length: 4198 
Content-lanuage: jp 
































5 00100101110100100101001001111101 < 
[ ,01010010100111101001010011010010 
ao 01010101011100000101010001010011 
ES 01011111001000010101111101010... _ 
字符 编码 器 实体 主体 字符 解码 器 














图 16-7 字符 编码 方案 把 字符 代码 编码 为 比特 ， 并 负责 反 向 变换 
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下 面 我 们 来 看 一 些 常见 的 编码 方案 。 


1. 8 位 
8 位 固定 宽度 恒 等 编码 把 每 个 字符 代码 编码 为 相应 的 8 位 二 进 制 值 。 它 只 能 支持 有 
256 个 字符 代码 范围 的 字符 集 。iso-8859 字符 集 家 族 系列 使 用 的 就 是 8 位 恒 等 编 码 。 


2. UTF-8 

UTF-8 是 一 种 流行 的 为 UCS 设计 的 字符 编码 方案 ，UTF 表示 UCS 变换 格式 (UCS 
Transformation Format), UTF-8 为 字符 代码 值 使 用 的 是 无 模 态 的 变 宽 编码 ， 第 一 字 
矶 的 高 位 表示 编码 后 的 字符 所 用 的 字 节 数 ， 所 需 的 每 个 后 续 字 布 都 含有 6 位 的 代码 
值 (参见 表 16-2)。 


如 果 编 码 后 的 第 1 字 节 的 最 高 位 是 0， 长 度 就 是 1 字 节 ， 剩 余 的 7 位 就 包含 字符 的 
代码 。 这 样 带 来 的 美妙 结果 就 是 和 ASCII 兼容 (但 和 iso-8859 系列 不 兼容 ， 因 为 
iso-8859 系列 使 用 了 最 高 位 ) 。 





表 16-2 UTF-8 变 宽 无 模 态 编码 


字符 代码 的 二 进 制 位 字 节 1 字 节 2 字 节 3 字 节 4 字 节 5 字 节 6 
0-7 Occccccc 
8-11 110ccccc 10cccccc 
12-16 1110cccc 10cccccc 10cccccc 
17-21 11110ccc 10cccccc 10cccccc 10cccccc 
22-26 111110cc 10cccccc 10cccccc 10cccccc 10cccccc 
27-31 1111110c 10cccccc 10cccccc 10cccccc 10cccccc 10cccccc 


例如 ， 字 符 代 码 90 (ASCH 的 “Z”) 会 被 编码 为 1 个 字 节 (01011010)， 而 代码 
5073 (13 位 二 进 制 值 为 1001111010001) 会 被 编码 为 3 个 字 节 : 


11100001 10001111 10010001 
3. iso-2022-jp 


iso-2022-jp 是 互联 网 上 的 日 文 文档 中 广泛 使 用 的 编码 。 它 是 变 宽 、 有 模 态 的 ， 所 有 
值 都 不 超过 128， 以 避免 和 不 支持 8 位 字符 的 软件 出 现 兼容 性 问题 。 


编码 上 下 文 始终 被 设置 为 4 种 预 设 的 字符 集 之 一 “， 使 用 特殊 的 “ 转 义 序列 ” 
(escape sequence) 在 字符 集 之 间 切 换 。iso-2022-jp 的 初始 状态 使 用 US-ASCII 字符 





iE 12: iso-2022-jp 编码 和 这 4 种 字符 集 是 紧密 绑 定 的 ， 而 其 他 一 些 编码 是 和 特定 的 字符 集 无 关 的 。 
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集 ， 使 用 3 个 字 节 的 转 义 序列 可 以 切换 到 JIS X 0201 (JIS-Roman) 字符 集 或 大 得 多 
的 JIS X 0208-1978 和 JIS X 0208-1983 字符 集 。 


X 16-3 中 列 出 了 这 些 转 义 序列 。 实 际 上 ， 日 文 文本 以 ESC$ @ 或 ESC $ B 开始 ， 
LJ ESC ( B £ ESC (J 结束 。 


表 16-3 iso-2022-jp 的 字符 集 切 换 转 义 序 列 


转 义 序 列 转 义 后 的 字符 集 每 个 代码 的 字 节 数 
ESC(B US-ASCII 1 
ESC (J JIS X 0201-1976 (JIS Roman) 1 
ESC $ @ JIS X 0208-1978 2 
ESC $ B JIS X 0208-1983 2 


在 US-ASCII 或 JIS-Roman 模 态 下 ， 每 个 字符 使 用 单个 字 节 。 当 使 用 更 大 的 JIS X 
0208 系列 的 字符 集 时 ， 每 个 字符 代码 使 用 2 个 字 节 。 该 编码 把 发 送 的 字 节 的 值 域 范 
围 限制 在 33-126 之 间 P, 





4. euc-jp 
euc-jp 是 另 一 种 流行 的 日 文 编码 。EUC 代表 “Extended Unix Code”( 扩 展 Unix fX 
码 )， 最 早 是 为 了 在 Unix 操作 系统 上 支持 亚洲 字符 而 开发 的 。 


和 iso-2022-jp 类 似 ，euc-jp 编码 也 是 变 长 的 ， 允 许 使 用 儿 种 标准 的 日 文字 符 集 。 但 
和 iso-2022-jp 不 同 的 是 ，euc-jp 编码 不 是 模 态 的 。 没 有 转 义 序列 可 以 在 不 同 模 态 之 
间 切 换 。 





euc-jp 支持 4 种 编码 后 的 字符 集 : JIS X 0201 (JIS-Roman， 对 ASCI 进行 一 些 日 文 
FE). JIS X 0208、 半 宽 片 假名 (最早 在 日 文 电报 系统 中 使 用 的 63 个 字符 ) 以 及 
JIS X 0212。 


编码 JIS Roman ( 它 和 ASCII 兼容 ) 的 时 候 使 用 1 个 字 节 ， 对 JIS X 0208 和 半 宽 
假名 则 使 用 2 个 字 节 ， 而 对 JIS X 0212 使 用 3 个 字 节 。 这 种 编码 有 点 浪费 空间 但 处 
理 起 来 很 简单 。 

表 16-4 概括 了 此 编码 的 格局 。 

















能 有 94 个 不 同 的 值 (33~126) ,这 也 足够 覆盖 JIS X 0208 系列 字符 集 里 面 的 所 有 字符 了 ， 
是 按照 94 x 94 的 网 格 来 组 织 代码 值 的 ， 所 以 2 个 字 节 足以 覆盖 JIS X 0208 字符 集中 








` 
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表 16-4 ”euc-jp 编 码 值 





哪个 字 节 编 码 值 
JIS X 0201 (有 94 个 编码 后 的 字符 ) 
«lA 33-126 
JIS X 0208 (有 6879 个 编码 后 的 字符 ) 
第 1 个 字 节 161~254 
«oA 161-254 
半 宽 片 假 名 (有 63 个 编码 后 的 字符 ) 
第 1 个 字 节 142 
第 2 个 字 池 161~223 
JIS X 0212 (有 6067 个 编码 后 的 字符 ) 
第 1 个 字 节 143 
第 2 个 字 节 161~254 
第 a4uu 161~254 








现在 我 们 就 介绍 完了 字符 集 和 编码 。 下 面 一 节 将 解释 语言 标记 和 HTTP 如 何 使 用 语 
言 标记 把 合适 的 内 容 传 给 受众 。 请 参见 附录 瓦 ， 那 里 列 出 了 详细 的 标准 化 字符 集 。 


16.4 语言 标记 与 HTTP 


语言 标记 是 命名 口语 的 标准 化 字符 串 短语 。 





名 字 需 要 标准 化 ， 不 然 的 话 ， 有 些 人 会 把 法 语文 档 打 上 French 标记 ， 而 有 些 其 他 人 
会 用 Franeais， 还 有 些 人 可 能 会 用 France， 更 有 些 懒 人 可 能 会 用 Fra 甚至 是 FE。 标 准 
化 语言 标记 就 可 以 避免 这 些 混乱 。 





英语 的 标记 是 en， 德语 的 标记 是 de， 韩 语 的 标记 是 ko， 等 等 。 语 言 标记 能 够 描述 语 
言 的 地 区 变种 和 方言 ， 比 如 巴西 葡萄 牙 语 的 标记 是 pFBR、 美 式 英 语 的 标记 是 en-US, 
汉语 中 的 湖南 话 的 标记 是 zh-xiang。 其 至 还 有 个 标准 语言 标记 i-klingon 是 描述 克 林 
根 语 “ 的 | 





16.4.1 Content-Language 首 部 


实体 的 Content-Language 首部 字段 描述 实体 的 目标 受众 语言 。 如 果 内 容 主要 是 给 


























注 14: 科幻 名 著 《 星 际 迷 航 》(Star Trek) 中 的 外 星 种 族 ， 加 州 大 学 伯克利 分 校 的 语言 学 博士 马克 乌克兰 为 
其 发 明了 一 套 语言 。( 译 者 注 ) 
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法 语 受 众 的 ， 其 Content-Language 首部 字段 就 将 包含 : 
Content-Language: fr 


Content-Language 首部 不 仅 限 于 文本 文档 。 音频 片段 、 影 以 及 应 用 程序 都 有 可 
能 是 面向 特定 语言 受众 的 。 任 何 面向 特定 语言 受众 的 媒体 类 型 都 可 以 有 Content- 
Language 首部 。 在 图 16-8 中 ， 音 频 文件 标记 为 面向 纳 瓦 霍 (Navajo) 听众 。 











http://www.canyonrecords.com/wav/534.wav 


HTTP/1.1 200 OK 
Content-type: audio/x-wav 
Content-length: 289772 
Content-language: i-navajo 











didal 


Á 00100101110100100101 

< 01010010100111101001 

i Ñ 01010101011100000101 
01011111001000011... 


16-8 content-Language 首部 把 名 为 Rain Song (AZJI) 的 音频 片段 标记 为 面向 纳 
REIRA 


如 果 内 容 是 面向 多 种 语言 受众 的 ， 可 以 列 出 多 种 语言 。 就 像 在 HTTP 规范 中 建议 的 ， 
一 份 同时 用 英语 和 毛利 语 写 的 “Treaty of Waitangi” '^ ( 怀 唐 伊 条 约 ) 译 稿 ， 可 以 这 
样 描 述 : 





























Content-Language: mi, en 
不 过 ， 不 能 仅 根据 有 多 种 语言 在 实体 中 出 现 就 认为 它 是 面向 多 种 语言 受众 的 。 为 初 
学 者 编写 的 语言 人 门 教 材 ， 比 如 “A First Lesson in Latin” (拉丁 语 第 一 课 )， 显 然 
是 为 英语 受众 准备 的 ， 应 当 只 用 en 来 描述 。 


16.4.2 Accept-Language 首 部 

我 们 绝 大 多 数 人 至 少 懂 一 种 语言 。HTTP 允许 我 们 把 语言 方面 的 限制 和 优先 选择 都 
发 送 给 网 站 服务 器 。 如 果 网 站 服务 器 有 以 多 种 语言 表示 的 资源 版 本 ， 它 就 能 把 内 容 
用 我 们 最 优选 的 语言 表示 出 来 。” 








: 美国 最 大 的 印 地 安 部 落 。( 译 者 注 ) 

: 英国 政府 与 新 西 兰 毛利 疯长 们 在 1840 年 签署 的 条 约 ， 是 新 西 兰 的 “建国 文献 ”"。( 译 者 注 ) 
注 17: 服务 器 也 可 以 根据 Accept-Language 首部 生成 适合 用 户 语言 的 动态 内 容 ， 或 据 此 选择 图 像 ， 或 
选择 适合 目标 语言 的 商业 促销 等 。 
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这 里 有 个 例子 ， 客 户 端 请 求 西班牙 语 内 容 : 
Accept-Language: es 


可 以 在 Accept-Language 首部 中 放 入 多 个 语言 标记 以 枚 举 所 支持 的 全 部 语言 及 其 
优先 顺序 (从 左 到 右 )。 这 里 有 个 例子 ， 客 户 端 首选 英语 ， 但 也 接受 瑞士 德语 (标准 
语言 标记 是 de-CH) 或 其 他 德语 变种 (标记 是 de); 





Accept-Language: en, de-CH, de 


客 户 端 使 用 Accept-Language 首部 和 Accept-Charset 首部 请 求 可 以 理解 的 内 
容 。 第 17 章 将 研究 这 些 机 制 的 细节 。 


16.4.3 ”语言 标记 的 类 型 
在 RFC 3066, "Tags for the Identification of Languages”( 标 识 语言 的 标记 ) 中 记录 
了 语言 标记 的 标准 化 语法 。 可 以 用 语言 标记 来 表示 : 


° 一 般 的 语言 分 类 (比如 es 代表 西班牙 语 ) ; 

。 特定 国家 的 语言 (比如 en-GB 代表 英国 英语 ) ， 

° 语言 的 方言 (比如 no-bok 指 挪威 的 书面 语 ) ; 

。 地 区 性 的 语言 (比如 sgn-US-MA 代表 美国 马 撒 和 葡萄 园 岛 上 的 手语 ) ; 
。 标准 化 的 非 变种 语言 (比如 i-navajo) ; 

。 非 标准 的 语言 (比如 x-snowboarder-slang") 。 








16.4.4 子 标记 

语言 标记 有 一 个 或 多 个 部 分 ， 用 连 字号 分 隔 ， 称 为 子 标记 : 

。 第 一 个 子 标记 称 为 主子 标记 ， 其 值 是 标准 化 的 ; 

。 第 二 个 子 标记 是 可 选 的 ， 遵 循 它 自己 的 命名 标准 ; 

。 其 他 尾随 的 子 标记 都 是 未 注册 的 。 

主子 标记 中 只 能 含有 字母 (A ~ Z)。 其 后 的 子 标记 可 以 含有 字母 和 数字 ， 长 度 最 多 
8 个 字符 。 图 16-9 中 给 出 了 一 个 示例 。 














注 18: 描述 由 “酷爱 滑雪 者 们 ”(shredders) 使 用 的 一 种 但 语 。( 译 者 注 ) 

















404 | 第 16 章 





马 撒 和 葡萄 园 名 上 的 手语 
sgn-US-MA 
"uU ui En 
子 标记 子 标 记 子 标记 


(手语 ) (美国 ) (马萨诸塞 州 
的 地 区 性 变 体 ) 























图 16-9 ”语言 标记 被 分 隔 为 子 标记 


16.4.5 ”大 小 写 

所 有 的 标记 都 是 不 区 分 大 小 写 的 ， 也 就 是 说 ， 标 记 en 和 eN 是 等 价 的 。 但 是 ， 习 惯 
上 用 全 小 写 来 表示 一 般 的 语言 ， 而 用 全 大 写 来 表示 特定 的 国家 。 例 如 ,位 表示 所 有 
分 类 为 法 语 的 语言 ， 而 FR 表示 国家 法 国 “。 





16.4. IANA 语言 标记 注册 
第 一 个 和 第 二 个 语言 子 标记 的 值 由 各 种 标准 文档 以 及 相关 的 维护 组 织 定义 。IANA” 
依据 RFC 3066 中 概括 的 规则 来 管理 标准 的 语言 标记 列表 。 


如 果 语 言 标 记 由 标准 的 国家 和 语言 值 组 成 ， 标 记 就 不 需要 专门 注册 。 只 有 那些 无 法 
用 标准 的 国家 和 语言 值 构成 的 语言 标记 才 需 要 专门 向 IANA 注册 ”。 下 面 儿 向 概括 
了 RFC 3066 中 关于 第 一 子 标记 和 第 二 子 标记 的 标准 。 


16.4.7 第 一 个 子 标记 一 一 名 字 空 间 

第 一 个 子 标 记 通常 是 标准 化 的 语言 记号 ， 选 自 ISO 639 中 的 语言 标准 集合 。 不 过 也 
可 以 用 字母 i 来 标识 在 IANA 中 注册 的 名 字 ， 或 用 x 表示 私有 的 或 者 扩展 的 名 字 。 
下 面 是 各 种 规则 。 


如 果 第 一 个 子 标记 含有 : 


。 2 个 字符 ， 那 就 是 来 自 ISO 639? 和 639-1 标准 的 语言 代码 ， 





注 19: 这 种 惯用 法 是 ISO 标准 3166 中 推荐 的 。 

注 20: 参见 http://www.iana.org fll RFC 2860, 

注 21: 编写 本 书 的 时 候 ，IANA 中 只 显 式 注 册 了 21 种 语言 标记 ， 包 括 汉 语 中 的 广东 话 (标记 是 zh-yue)、 
新 挪威 语 (标记 是 no-nyn)、 卢 森 堡 语 (标记 是 i-lux) 以 及 克 林 根 语 (语言 标记 是 i-klingon)。 在 基 
特 网 上 使 用 的 其 余数 百 种 口语 的 标记 均 由 标准 的 组 件 构 成 。 

注 22: 参见 ISO 标准 639, “Codes for the representation of names of languages—Part2; Alpha-3code”( 表 示 
语言 名 字 的 代码 一 一 第 2 部 分 : Alpha-3 代码 )。 
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。 3 个 字符 ， 那 就 是 来 自 ISO 639-2? 标准 及 其 扩展 的 语言 代码 ; 
° 字母 1， 该 语言 标记 是 在 IANA 显 式 注 册 的 ， 
。 字母 x， 该 语言 标记 是 私有 的 、 非 标准 的 ， 或 扩展 的 子 标 记 。 


附录 G 中 总 结 了 ISO 639 和 639-2 中 的 名 字 。 表 16-5 中 给 出 了 一 些 示例 。 


表 16-5 ISO 639 和 ISO 639-2 中 的 语言 代码 示例 




















语 言 ISO 639 ISO 639-2 
阿拉 伯 语 ar ara 
汉语 zh chi/zho 
LE nl dut/nla 
英语 en eng 

法 语 fr fra/fre 
德语 de deu/ger 
现代 希腊 语 el ell/gre 
希 伯 来 语 he heb 
意大利 语 it ita 

日 语 ja jpn 
韩语 ko kor 
挪威 语 no nor 
俄语 ru rus 
西班牙 语 es esl/spa 
瑞典 语 sv sve/swe 
土耳其 语 tr tur 








16.4.8 ”第 二 个 子 标记 一 一 名 字 空 间 
第 二 个 子 标记 通常 是 标准 化 的 国家 记号 ， 选 自 ISO 3166 中 的 国家 代码 和 地 区 标准 集 
合 。 不 过 也 可 以 是 在 IANA 注册 过 的 其 他 字符 串 。 下 面 是 各 种 规则 。 


如 果 第 二 个 子 标记 含有 : 


。 2 个 字符 ， 那 就 是 ISO 3166” 中 定义 的 国家 /地 区 ，; 





注 23: 参见 ISO 639-2, “Codes for the representation of names of languages 一 Part 2: Alpha-3 code”( 表 示 语 言 
名 字 的 代码 一 一 第 2 部 分 : Alpha-3 代码 )。 

注 24: 国家 代码 AA、QM-QZ、XA-XZ 以 及 ZZ 是 在 ISO 3166 中 保留 的 作为 用 户 分 配 的 代码 。 一 定 不 能 用 
这 些 值 来 构造 语言 标记 。 




















° 3-8 个 字符 ， 可 能 是 在 IANA 中 注册 的 值 ; 
。 单个 字符 ， 这 是 非法 的 情况 。 





K 16-6 中 列 出 了 ISO 3166 中 的 部 分 国家 代码 。 附 录 G 中 列 出 了 完整 的 国家 代码 。 


表 16-6 ISO 3166 中 的 国家 代码 示例 


























E =< 代 
巴西 BR 
加 拿 大 CA 
中 国 CN 
法 国 FR 
德国 DE 
Ass |x] VA 
印度 IN 
意大利 IT 
日 本 JP 
黎巴嫩 LB 
墨西哥 MX 
巴基斯坦 PK 
俄罗斯 联邦 RU 
英国 GB 
美国 US 





16.4.9 ”其 余子 标记 一 一 名 字 空 间 





除了 最 长 可 以 到 8 个 字符 (字母 和 数字 ) 之 外 ， 第 三 个 和 其 后 的 子 标记 没有 特殊 规则 。 


16.4.10 配置 和 语言 有 关 的 首选 项 
可 以 在 浏览 器 的 配置 文件 中 配置 和 语言 有 关 的 首选 项 。 


网 景 公司 的 Navigator 的 设置 方法 是 : 编辑 一 首选 项 一 语言 ， 而 微软 公司 的 Internet 


Explorer 浏览 器 的 设置 方法 是 : 工具 一 Internet 选项 一 语言 。 
16.4.11 语言 标记 参考 表 
为 便于 使 用 ， 附 录 G 中 给 出 了 语言 标记 的 参考 表 。 


° X G-1 列 出 了 在 IANA 注册 的 语言 标记 。 
° K G-2 JH T ISO 639 中 的 语言 代码 。 
° R G-3 YII T ISO 3166 中 的 国家 代码 。 
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16.5 国际 化 的 URI 


直到 今天 ，URI 还 没有 为 国际 化 提供 足够 的 支持 。 除 了 少数 (定义 得 很 糟 的 ) 例外 ， 
URI 如 今 还 是 由 US-ASCII 字符 的 一 个 子 集 组 成 的 。 人 们 正在 努力 使 主机 名 和 URL 
的 路 径 中 能 包含 更 丰富 的 集合 中 的 字符 ， 但 直到 现在 ， 这 些 标准 还 没有 被 广泛 接受 
和 部 署 。 现 在 让 我 们 来 回顾 一 下 当前 的 一 些 尝 试 。 


16.5.1 全球 性 的 可 转 抄 能 力 与 有 意义 的 字符 的 较量 
URI 的 设计 者 们 希望 世界 上 每 个 人 都 能 通过 电子 邮件 、 电 话 、 公 告 板 ， 甚 至 无 线 电 
来 共享 URI。 他 们 还 希望 URI 容易 使 用 和 记忆 ， 但 这 两 个 目标 是 相互 冲突 的 。 


为 了 让 世界 各 地 的 人 们 都 能 够 便捷 地 输入 、 操 控 ， 以 及 共享 URI， 设 计 者 们 为 URI 
选择 了 常用 字符 的 一 个 很 有 限 的 子 集 (基本 的 拉丁 字母 表 中 的 字母 、 数 字 以 及 少数 
特殊 符号 )。 世 界 上 绝 大 多 数 软件 和 键盘 都 支持 这 个 小 的 字符 集合 。 

但 不 幸 的 是 ， 限 制 了 字符 集 的 话 ，URI 就 无 法 被 全 球 的 人 们 方便 地 使 用 和 记忆 。 世 


界 上 有 很 大 一 部 分 人 甚至 都 不 认识 拉丁 字母 ， 他 们 几乎 无 法 把 URI 当 作 抽象 模式 来 
记忆 。 























URI 的 设计 者 们 觉得 确保 资源 标识 符 的 可 转 抄 能 力 (transcribability) 和 共享 能 力 比 
让 它们 由 最 有 意义 的 字符 组 成 更 加 重要 ， 因 此 (如今 的 ) URI 基 本 上 是 由 ASCII F 
符 的 受 限 子 集 构成 的 。 





16.5.2 URI 字符 集合 

URI 中 允许 出 现 的 US-ASCII 字符 的 子 集 ， 可 以 被 分 成 保留 、 未 保留 以 及 转 义 字符 
这 几 类 。 未 保留 的 字符 可 用 于 URI 允许 其 出 现 的 任何 部 分 。 保 留 的 字符 在 很 多 URI 
中 都 有 特殊 的 含义 ， 因 此 一 般 来 说 不 能 使 用 它们 。 表 16-7 中 列 出 了 全 部 未 保留 、 保 
留 ， 以 及 转 义 字符 。 


表 16-7 URI 字 符 语法 





字符 类 别 字符 列表 

未 保留 [A-Za-z0-9] | "^ |" [rn [nm [nsn | sm | nn | n0 | " 
保留 "e P S e" png" nz" || n$n pnm 

转 义 "%" «HEX» «HEX» 
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16.5.8 ” 转 义 和 反 转 义 

URI 转 义 提 供 了 一 种 安全 的 方式 ， 可 以 在 URI 内 部 插入 保留 字符 以 及 原本 不 支持 的 
字符 (比如 各 种 空白 ) 。 每 个 转 义 是 一 组 3 字符 序列 ， 由 百 分 号 (%) 后 面 跟 上 两 个 
十 六 进 制 数字 的 字符 。 这 两 个 十 六 进 制 数字 就 表示 一 个 US-ASCII 字符 的 代码 。 
例如 ， 要 在 URL 中 插入 一 个 空白 (ASCIT 32) ， 可 以 用 转 义 %20， 因 为 20 是 32 的 
十 六 进 制 表示 。 类 似 地 ， 如 果 想 插入 一 个 百 分 号 并 且 不 想 让 它 被 当 作 转 义 ， 就 可 以 
输入 %25，25 是 百 分 号 的 ASCII 代码 的 十 六 进 制 值 。 


16-10 展示 了 URI 中 的 概念 性 字符 是 如 何 转换 为 当前 字符 集中 字符 的 代码 字 节 
的 。 需 要 处 理 URI 时 ， 转 义 会 被 反 转 义 回 来 ， 产 生 它 们 代表 的 ASCII 代码 的 字 节 。 















































概念 性 的 字符 编码 后 的 URI 字 市 反 转 义 之 后 的 ASCII 代 码 字 节 
0-111 111 
es m-109 109 
O /=47 47 
, sale at ) b=98 98 
BO i-105 105 
£2103 —————— 103 
http://www.joes-hardware.com/big9620sale.txt 96-37 
2-50 上 一 一 32 
| 0-48 
S-115 115 
外 部 形式 输入 和 发 送 的 内 容 处 理 的 内 容 
(电子 邮件 、 网 页 、 公 告 板 、 无 线 电 ) (用 当前 字符 集 ) (用 US-ASCII 字 符 集 ) 


























16-10 URI 中 的 字符 在 传输 的 时 候 要 转 义 ， 但 处 理 的 时 候 要 反 转 义 


在 内 部 处 理 时 ，HTTP 应 用 程序 应 当 在 传输 和 转发 URI 的 时 候 保持 转 义 不 变 。HTTP 
应 用 程序 应 该 仅 在 需要 数据 的 时 候 才 对 URI 进行 转 义 。 更 重要 的 是 ， 应 用 程序 应 该 
确保 任何 URI 都 不 会 被 反 转 义 2 次， 因为 在 转 义 的 时 候 可 能 会 把 百 分 号 编码 进去 ， 
反 转 义 出 来 之 后 ， 再 转 一 次 就 会 导致 数据 丢失 。 


16.5.4 转 义 国际 化 字符 

需要 注意 的 是 ， 要 转 义 的 值 本 身 应 该 在 US-ASCII 代码 值 的 范围 内 (0 ~ 127). 4 
些 应 用 程序 试图 用 转 义 值 来 表示 iso-8859-1 中 扩展 的 字符 (代码 范围 在 128 ~ 
255)。 例 如 ， 网 站 服务 器 可 能 会 错误 地 用 转 义 来 对 包含 了 国际 字符 的 文件 名 进行 编 
码 。 这 样 做 是 不 对 的 ， 可 能 会 使 别 的 应 用 出 问题 。 
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例如 ， 文 件 名 Sven Olssen.html (包含 了 一 个 元 音 变 音 ) 可 能 被 网 站 服务 器 编码 为 
Sven%20%D6lssen.html。 把 空格 编码 为 %20 是 对 的 ， 但 从 技术 上 说 ， 把 Ó 编码 为 
%D6 是 非法 的 ， 因 为 代码 D6 (十 进 制 值 214) 落 在 了 Ascu 代码 范围 之 外 。ASCII 
只 定义 了 最 大 值 为 0x7F 〈 十 进 制 值 127) 的 代码 。 


16.5.5 URI 中 的 模 态 切 换 

有 些 URI 也 用 ASCH 字符 的 序列 来 表示 其 他 字符 集中 的 字符 。 例 如 ， 可 能 使 用 iso- 
2022-jp 编码 插入 “ESC ( J”， 切 换 到 JIS-Roman 字符 集 ， 用 “ESC (B” 切 换 回 
ASCI 字符 集 。 这 在 一 些 本 地 化 的 环境 中 可 以 工作 ,但 这 种 方式 没有 进行 良好 的 定 
X, 而且 没 有 标准 化 的 方案 来 识别 URL 所 使 用 的 特定 编码 。 正 如 RFC 2396 的 作者 
所 说 的 那样 : 





不 过 ， 对 于 含有 非 ASCII 字 符 的 原始 字符 序列 来 说 ， 境 况 更 加 复杂 。 如 果 可 

能 用 到 多 个 字符 集 的 话 ， 传 输 表 示 字 符 序列 的 8 位 字 节 序列 的 因特网 协议 期 

待 能 有 办 法 来 识别 所 用 的 字符 集 [RFC 2277]。 

然而 ， 在 通用 的 URI 语 法 中 没有 提供 进行 这 种 识别 的 手段 。 个 别 的 URI 方 案 可 

以 请 求 单一 的 字符 集 ， 定 义 默 认 的 字符 集 ， 或 提供 指示 所 用 字符 集 的 方法 。 期 

待 将 来 对 这 个 规范 的 修改 能 为 URI 中 的 字符 编码 提供 一 种 系统 化 的 处 理 方案 。 
目前 ，URI 对 国际 化 应 用 还 不 是 非常 友好 。URI 的 可 移植 性 目标 比 语言 灵活 性 方面 
的 目标 更 重要 。 人 们 正在 尽 最 大 努力 使 URI 更 加 国际 化 ， 但 在 短期 内 ，HTTP 应 用 
程序 还 是 应 当 坚持 使 用 ASCII。 它 从 1968 年 就 出 现 了 ， 所 以 只 用 它 的 话 ， 一 切 还 不 
STA. 


16.6 ”其 他 需要 考虑 的 地 方 


本 节 讨 论 在 编写 国际 化 的 HTTP 应 用 程序 时 ， 必 须 牢 记 的 其 他 一 些 东西 。 








16.6.1 首部 和 不 合 规范 的 数据 

HTTP 首部 必须 由 US-ASCII 字符 集中 的 字符 构成 。 不 过 ， 并 不 是 所 有 的 客户 端 和 服 
务 器 都 正确 地 实现 了 这 一 点 ， 你 可 能 会 时 不 时 收 到 一 些 代码 值 大 于 127 的 非法 字符 。 
很 多 HTTP 应 用 程序 使 用 操作 系统 和 库 例 程 来 处 理 字符 (比如 Unix 中 的 字符 分 类 
JE ctype), 但 不 是 所 有 这 些 库 都 支持 ASCH 范围 (0 ~ 127) 之 外 的 字符 代码 。 


在 某 些 情况 下 (一般 来 说 ， 是 较 老 的 实现 )， 当 输入 非 ASCII 字符 时 ， 这 些 库 可 能 
会 返回 不 正确 的 结果 ， 或 者 使 应 用 程序 崩 涡 。 假 设 报 文中 含有 非法 数据 ， 在 使 用 这 
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些 字符 分 类 库 来 处 理 HTTP 报 文 之 前 ， 要 仔细 阅读 它们 的 文档 。 





16.6.2 日 期 

HTTP 的 规范 中 明确 定义 了 合法 的 GMT 日 期 格式 ， 但 要 知道 并 非 所 有 Web 服务 器 
和 客户 端 都 遵守 这 些 规则 。 例 如 ， 我 们 曾 见 过 Web 服务 器 发 送 的 无 效 HTTP Date 
(日 期 ) 首部 中 的 月 份 是 用 本 地 语言 表示 的 。 


HTTP 应 用 程序 应 当 尝 试 容忍 一 些 不 合 规矩 的 日 期 ， 不 能 在 接收 的 时 候 崩 福 。 不 过 也 
不 是 所 有 发 送出 来 的 日 期 都 能 被 正确 解释 ， 如 果 日 期 无 法 解析 ， 服 务 器 应 当 谨慎 处 理 。 





16.6.3 域名 


DNS 目前 还 不 支持 在 域名 中 使 用 国际 化 的 字符 。 现 在 正在 进行 支持 多 语言 的 域名 的 
相关 标准 化 工作 ， 但 还 没有 被 广泛 部 署 。 


16.7 更 多 信息 


万 维 网 的 极 大 成 功 意味 着 HTTP 应 用 程序 要 继续 在 不 同 的 语言 和 字符 集 之 间 交 换 更 
多 的 内 容 。 更 多 关于 多 语言 的 多 媒体 这 个 重要 但 有 些 复杂 的 话题 的 信息 ， 请 参考 下 
列 资料 来 源 。 











16.7.4 附录 

° 表 H-1 列 出 了 在 IANA 注册 的 字符 集 标记 。 
° K G-1 列 出 了 在 IANA 注册 的 语言 标记 。 

° K G-2 列 出 了 ISO 639 中 的 语言 代码 。 

° 表 G-3 列 出 了 ISO 3166 中 的 国家 代码 。 


16.7.2 ”互联 网 的 国际 化 


° http://www.w3.org/International/ 
“Making the WWW Truly World Wide" (“f# WWW 真正 遍布 全 球 ”) 一 一 W3C 
国际 化 和 本 地 化 网 站 。 


° http://www.ietf.org/rfc/rfc2396.txt 
RFC 2396, "Uniform Resource Identifiers (URI) : Generic Syntax”(“ 统 一 资源 
描述 符 : 一 般 语 法 ”)， 是 URI 的 定义 文档 。 该 文档 中 包括 了 描述 国际 化 URI 中 
的 字符 集 限制 方面 的 章节 。 
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CJKV Information Processing (《 中 日 韩 越 信息 处 理 》) 

Ken Lunde z£, H O'Reilly & Associates 公司 出 版 。CJKV 是 亚洲 语言 的 电子 化 
字符 处 理 方面 的 权威 经 典 。 亚 洲 语言 的 字符 集 多 种 多 样 、 复 杂 难 懂 ， 但 这 本 书 详 
细 介 绍 了 大 型 字符 集 的 各 种 标准 技术 。 

















http://www ietf.org/rfc/rfc2277.txt 

RFC 2277, “IETF Policy on Character Sets and Languages" (“IETF 关于 字符 集 
和 语言 的 策略 ”)， 其 中 记录 了 互联 网 工程 指导 组 (Internet Engineering Steering 
Group, IESG) 应 用 的 当前 策略 ， 这 些 策略 是 为 了 配合 互联 网 工程 任务 组 
(Internet Engineering Task Force， IETF) 帮助 各 种 互联 网 协议 使 用 多 种 语言 和 字 
符 交 换 数 据 而 做 的 标准 化 努力 。 


16.7.83 国际 标准 


http://www.iana.org/numbers.htm 

IANA 中 有 已 注册 的 各 种 名 字 和 数字 编号 的 库 。 其 中 的 Protocol Numbers and 
Assignments Directory (协议 编号 和 分 配 目 录 ) 中 包含 了 因特网 上 使 用 的 已 注册 
字符 集 记录 。 因 为 有 关 国 际 间 通信 的 大 部 分 工作 都 是 在 ISO 的 领域 内 ， 而 不 是 因 
特 网 的 团体 完成 的 ， 所 以 IANA 的 这 份 列表 算 不 上 详尽 。 











http://www ietf.org/rfc/rfc3066.txt 

RFC 3066, “Tags for the Identification of Languages”( 标识 语言 的 标记 ”) Tm 
述 了 语言 标记 、 它 们 的 值 ， 以 及 如 何 构造 这 些 标记 。 

“Codes for the representation of names of languages”(“ 表 示 语 言 名 称 的 代码 ”) 


ISO 639:1988 (E/F)， 国 际 标 准 化 组 织 , 第 1 版 。 


“Codes for the representation of names of languages 一 Part 2: Alpha-3 code”(“ 表 
示 语 言 名 称 的 代码 ， 第 2 部 分 : Alpha-3 代码 ”) 
ISO 639-2:1998, ISO TC46/SC4 和 TC37/SC2 联合 工作 组 ， 第 1 版 。 


“Codes for the representation of names of countries”( “表示 国家 名 称 的 代码 ”) 
ISO 3166:1988 (E/F)， 国 际 标准 化 组 织 , 第 3 版。 
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一 个 URL 常常 需要 代表 若干 不 同 的 资源 。 例 如 那 种 需要 以 多 种 语言 提供 其 内 容 的 
网 站 站 点 。 如 果 某 个 站 点 (比如 Joe 的 五 金 商店 这 样 的 站 点 ) 有 说 法 语 的 和 说 英语 
的 两 种 用 户 ， 它 可 能 想 用 这 两 种 语言 提供 网 站 站 点 信息 。 但 在 这 种 情况 下 ， 当 用 户 
请 求 http://www.joes-hardware.com 时 ， 服 务 器 应 当 发 送 哪 种 版 本 呢 ? 法 文 版 还 是 
英文 版 ? 

理想 情况 下 ， 服 务 器 应 当 向 英语 用 户 发 送 英文 版 ， 向 法 语 用 户 发 送 法 文 版 一 一 用 户 
只 要 访问 Joe 的 五 金 商 店 的 主页 就 可 以 得 到 相应 语言 的 内 容 。 幸 运 的 是 ，HTTP fé 
供 了 内 容 协 商 方法 ， 人 允许 客 户 端 和 服务 器 作 这 样 的 决定 。 通 过 这 些 方法 ， 单 一 的 
URL 就 可 以 代表 不 同 的 资源 〈 比 如 ， 同 一 个 网 站 页 面 的 法 语 版 和 英语 版 )。 这 些 不 
同 的 版 本 称 为 变 体 。 

对 于 特定 的 URL 来 说 ， 服 务 器 还 可 以 根据 其 他 原则 来 决定 发 送 什 么 内 容 给 客户 端 最 
合适 。 在 有 些 场合 下 ， 服 务 器 其 至 可 以 自动 生成 定制 的 页 面 。 比 如 ， 服 务 器 可 以 为 
手持 设备 把 HTML 页 面 转换 成 WML 页 面 。 这 类 动态 内 容 变换 被 称 为 转 码 。 这 些 变 
换 动作 是 HTTP 客户 端 和 服务 器 之 间 进 行内 容 协 商 的 结果 。 


本 章 ， 我 们 将 讨论 内 容 协 商 和 网 站 应 用 程序 应 该 如 何 担负 内 容 协商 的 责 


rz —— 
17.1 内 容 协商 技术 
共有 3 种 不 同 的 方法 可 以 决定 服务 器 上 哪个 页 面 最 适合 客户 端 : 让 客户 端 来 选择 、 
服务 器 自动 判定 ， 或 让 中 间 代 理 来 选 。 这 3 种 技术 分 别称 为 客户 端 驱动 的 协商 、 服 
务 器 驱动 的 协商 以 及 透明 协商 〈 参 见 表 17-1) 。 本 章 ， 我 们 将 研究 每 种 技术 的 机 制 
及 其 优 缺 点 。 


表 17-1 内 容 协商 技术 概要 


















































k R 工作 原理 优 点 缺 点 

客户 端 驱动 ”客户 端 发 起 请 求 ， 服 务 器 ”在 服务 器 端的 实现 最 容易 。 客 户 。 增 加 了 时 延 : 为 了 获得 
发 送 可 选项 的 列表 ， 客 户 ” 端 可 以 选择 最 合适 的 内 容 正确 的 内 容 ， 至 少 要 发 
端 选择 送 两 次 请 求 





服务 器 驱动 ”服务 器 检查 客户 端的 请 求 ” 比 客户 端 驱动 的 协商 方式 要 快 。 如 果 结 论 不 是 很 明确 
首部 集 并 决定 提供 哪个 版 HTTP 提供 了 a 值 机 制 ， 允许 服 (比如 首部 集 不 匹配 )， 



































本 的 页 面 务 器 近似 匹配 ， 还 提供 了 vary 服务 器 要 做 猜测 
首部 供 服务 器 告知 下 游 的 设备 如 
可 对 请 求 估 值 
透明 某 个 中 间 设 备 (通常 是 缓 ” 免 除了 Web 服务 器 的 协商 开销 。 关于 如 何 进行 透明 协 
存 代理 ) 代表 客户 端 进行 ” 比 客 户 端 驱动 的 协商 要 快 商 ， 还 没有 正式 的 规范 
请 求 协商 
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17.2 ”客户 端 驱动 的 协商 

对 于 服务 器 来 说 ， 收 到 客户 端 请 求 时 只 是 发 回响 应 ， 在 其 中 列 出 可 用 的 页 面 ， 让 客 
户 端 决定 要 看 哪个 ， 这 是 最 容易 的 事情 。 很 显然 ， 这 是 服务 器 最 容易 实现 的 方式 ， 
而 且 客 户 端 很 可 能 选择 到 最 佳 的 版 本 (只 要 列表 中 有 让 客户 端 选择 的 足够 信息 )。 不 
利之 处 是 每 个 页 面 都 需要 两 次 请 求 : 第 一 次 获取 列表 ， 第 二 次 获取 选择 的 副本 。 这 
种 技术 速度 很 慢 且 过 程 枯燥 乏味 ， 让 用 户 厌 烦 。 


从 实现 原理 上 来 说 ， 服 务 器 实际 上 有 两 种 方法 为 客户 端 提 供 选项 : 一 是 发 送 回 一 个 
HTML 文档 ， 里 面 有 到 该 页 面 的 各 种 版 本 的 链接 和 每 个 版 本 的 描述 信息 ， 另 一 种 方 
法 是 发 送 回 HTTP/1.1 响应 时 ， 使 用 300 Multiple Choices 响应 代码 。 客 户 端 浏览 器 
收 到 这 种 响应 时 ， 在 前 一 种 情况 下 ， 会 显示 一 个 带 有 链接 的 页 面 ， 在 后 一 种 情况 下 ， 
可 能 会 弹出 对 话 窗口 ， 让 用 户 做 选择 。 不 管 怎么 样 ， 决 定 是 由 客户 端的 浏览 器 用 户 
作出 的 。 


除了 增加 时 延 并 且 对 每 个 页 面 都 要 进行 繁琐 的 多 次 请 求 之 外 ， 这 种 方法 还 有 一 个 缺 
点 : 它 需 要 多 个 URL: 公共 页 面 要 一 个 ， 其 他 每 种 特殊 页 面 也 都 要 一 个 。 因 此 ， 比 
如 说 原始 的 请 求 地 址 是 www.joes-hardware.com, Joe 的 服务 器 可 能 会 回复 某 个 页 
面 ， 该 页 面 里 面 有 到 www.joes-hardware.com/english 和 www.joes-hardware.com/ 
french 的 链接 。 如 果 客 户 端 想 加 书签 的 话 ， 是 要 加 在 原始 的 公共 页 面 上 呢 ， 还 是 
加 在 选中 的 页 面 上 呢 ? 如 果 用 户 想 把 这 个 网 站 推荐 给 他 的 朋友 ， 是 告知 www.joes- 
hardware.com 这 个 地 址 好 呢 ， 还 是 只 告诉 他 们 讲 英 语 的 朋友 www.joes-hardware. 
com/english 这 个 地 址 ? 


17.3 ”服务 器 驱动 的 协商 


在 前 一 节 中 ， 我 们 了 解 了 客户 端 驱 动 的 协商 存在 的 若干 缺点 。 大 部 分 缺点 都 涉及 客 

户 端 和 服务 器 之 间 通 信 量 的 增长 ， 这 些 通信 量 用 来 决定 什么 页 面 才 是 对 请 求 的 最 佳 

响应 。 减 少 额 外 通信 量 的 一 种 方法 是 让 服务 器 来 决定 发 送 哪个 页 面 回去 ， 但 为 了 做 

到 这 一 点 ， 客 户 端 必须 发 送 有 关 客 户 偏好 的 足够 信息 ， 以 便服 务 器 能 够 作出 准确 的 

决策 。 服 务 器 通过 客户 端 请 求 的 首部 集 来 获得 这 方面 的 信息 。 

有 以 下 两 种 机 制 可 供 HTTP 服务 器 评估 发 送 什 么 响应 给 客户 端 比较 合适 。 

。 检查 内 容 协 商 首 部 集 。 服 务 器 察看 客户 端 发 送 的 Accept 首部 集 ， 设 法 用 相应 的 
响应 首部 与 之 匹配 。 

° 根据 其 他 (GEARR) 首部 进行 变通 。 例 如 ， 服 务 器 可 以 根据 客户 端 发 送 的 
User-Agent 首部 来 发 送 响应 。 
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后 面 的 小 节 将 详细 介绍 这 两 种 机 制 。 

17.3.1 内 容 协 商 首部 集 

客户 端 可 以 用 表 17-2 中 列 出 的 HTTP 首部 集 发 送 用 户 的 偏好 信息 。 
表 17-2 Accept 首 部 集 





B BN dá ë 
Accept 告知 服务 器 发 送 何 种 媒体 类 型 
Accept-Language 告知 服务 器 发 送 何 种 语言 
Accept-Charset 告知 服务 器 发 送 何 种 字符 集 
Accept-Encoding 告知 服务 器 采用 何 种 编码 





注意 ， 这 些 首 部 与 第 15 章 讨论 的 那些 实体 首部 非常 类 似 。 不 过 ， 这 两 种 首部 的 用 途 
截然 不 同 。 正 如 第 15 章 中 所 述 ， 实 体 首部 集 像 运输 标签 ， 它 们 描述 了 把 报 文 从 服务 
器 传输 给 客户 端的 过 程 中 必须 的 各 种 报 文 主体 属性 。 而 内 容 协 商 首部 集 是 由 客户 端 
发 送 给 服务 器 用 于 交换 偏好 信息 的 ， 以 便服 务 器 可 以 从 文档 的 不 同 版 本 中 选择 出 最 
符合 客户 端 偏好 的 那个 来 提供 服务 。 


服务 器 用 表 17-3 中 列 出 的 实体 首部 集 来 匹配 客户 端的 Accept 首部 集 。 
表 17-3 。 Accept 首部 集 和 匹配 的 文档 首部 集 











Accept 首 部 实体 首部 
Accept Content-Type 
Accept-Language Content-Language 
Accept-Charset Content-Type 
Accept-Encoding Content-Encoding 








注意 ， 由 于 HTTP 是 无 状态 的 协议 (表示 服务 器 不 会 在 不 同 的 请 求 之 间 追 踪 客 户 端 
的 偏好 )， 所 以 客户 端 必 须 在 每 个 请 求 中 都 发 送 其 偏好 信息 。 


如 果 两 个 客户 端 都 发 送 了 Accept-Language 首部 ， 描 述 它 们 感 兴趣 的 语言 信息 ， 
服务 器 就 能 够 决定 发 送 www.joes-hardware.com 的 何 种 版 本 给 哪个 客户 端 了 。 让 服 
务 器 自动 选择 发 送 回去 的 文档 ,减少 了 往返 通信 的 时 延 ， 这 种 时 延 是 客户 端 驱 动 模 
型 中 无 法 避免 的 。 

然而 ， 假 设 某 个 客户 端 偏好 西班牙 文 ， 那 服务 器 应 当 回 送 哪个 版 本 的 页 面 呢 ? 英语 
还 是 法 语 ? 服务 器 只 有 两 种 选择 : 猜测 或 回 退 到 客户 端 驱 动 模型 ， 问 客户 端 选 择 哪 
个 。 假 如 这 个 西班牙 人 碰巧 懂 一 点 英语 ， 他 可 能 会 选择 英文 页 面 ， 这 不 是 最 理想 的 ， 
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但 它 能 解决 问题 。 在 这 种 情况 下 ， 这 个 西班牙 人 需要 有 办 法 传达 更 多 与 其 储 好 有 关 
的 信息 ， 也 就 是 他 的 确 对 英语 略 知 一 二 ， 在 没有 西班牙 语 的 时 候 ， 英 语 也 行 。 

幸运 的 是 ，HTTP 提供 了 一 种 机 制 ， 可 以 让 与 这 个 西班牙 人 情况 类 似 的 客户 端 更 详细 
地 描述 其 偏好 。 这 种 机 制 就 是 质量 值 (简称 q 值 )。 


17.8.2. 内容 协 商 首 部 中 的 质量 值 

HTTP 协议 中 定义 了 质量 值 ， 允 许 客户 端 为 每 种 偏好 类 别 列 出 多 种 选项 ， 并 为 每 种 偏 
好 选项 关联 一 个 优先 次 序 。 例 如 ， 客 户 端 可 以 发 送 下 列 形式 的 Accept -Language 
m. 





Accept-Language: en;qs0.5, fr;q-0.0, nl;qs1.0, tr;qs0.0 


其 中 gq 值 的 范围 从 0.0 ~ 1.0 (0.0 是 优先 级 最 低 的 ， 而 1.0 是 优先 级 最 高 的 ) 。 上 面 
列 出 的 那个 首部 ， 说 明 该 客户 端 最 愿意 接收 荷兰 语 (缩写 为 nl) 文档， 但 英语 〈 缩 
写 为 en) 文档 也 行 ， 无 论 如 何 ， 这 个 客户 端 都 不 愿意 收 到 法 语 (缩写 为 他) 或 土 耳 
其 语 (缩写 为 tr) 的 版 本 。 注 意 ， 偏 好 的 排列 顺序 并 不 重要 ， 只 有 与 偏好 相关 的 q 
值 才 是 重要 的 。 


服务 器 偶尔 也 会 碰 到 找 不 到 文档 可 以 匹配 客户 端的 任何 偏好 的 情况 。 对 于 这 种 情况 ， 
服务 器 可 以 修改 文档 ， 也 就 是 对 文档 进行 转 码 ， 以 匹配 客户 端的 偏好 。 我 们 将 在 本 
章 后 面 讨 论 这 种 机 制 。 


17.3.3” 随 其 他 首部 集 而 变化 

服务 器 也 可 以 根据 其 他 客户 端 请 求 首部 集 来 匹配 响应 ， 比 如 User-Agent 首部 。 例 
如 ， 服 务 器 知道 老 版 本 的 浏览 器 不 支持 JavaScript 语言 ， 这 样 就 可 以 向 其 发 送 不 含 
有 JavaScript 的 页 面 版 本 。 

在 这 种 情况 下 ， 没 有 qa 值 机 制 可 供 查 找 “ 最 近似 ”的 匹配 。 服 务 器 或 者 去 找 完全 匹 
配 ， 或 者 简单 地 有 什么 就 给 什么 ， 这 取决 于 服务 器 的 实现 。 

由 于 缓存 需要 尽力 提供 所 缓存 文档 中 正确 的 “最 佳 ” 版 本 ，HTTP 协议 定义 了 服务 器 
在 响应 中 发 送 的 vary 首部 。 这 个 首部 告知 缓存 (还 有 客户 端 和 所 有 下 游 的 代理 ) HR 
务 器 根据 哪些 首部 来 决定 发 送 响应 的 最 佳 版 本 。 本 章 后 面 会 更 详细 地 讨论 Vary 首部 。 




















17.3.4 Apache 中 的 内 容 协 商 
这 里 概括 了 著名 的 Web 服务 器 Apache 是 如 何 支持 内 容 协 商 的 。 网 站 的 内 容 提 供 者 ， 








内 容 协 商 与 转 码 | 417 








398 














399 








比如 说 Joe， 要 负责 为 Joe 的 索引 页 面 提供 不 同 的 版 本 。Joe 还 必须 把 这 些 索引 页 
文件 放 在 和 站 点 相关 的 Apache 服务 器 的 适当 目录 下 。 用 以 下 两 种 方式 可 以 启用 P 
容 协商 。 


。 在 网 站 目录 中 ,为 网 站 中 每 个 有 变 体 的 URI 创建 一 个 type-map (类 型 映射 ) 文件 。 
这 个 type-map 文件 列 出 了 每 个 变 体 和 其 相关 的 内 容 协 商 首部 集 。 
° 启用 MultiViews 指令 ， 这 样 会 使 Apache 自动 为 目录 创建 type-map 文件 。 





1. 使 用 type-map 文 件 
Apache 服务 器 需要 知道 type-map 文件 的 命名 规则 。 可 以 在 服务 器 的 配置 文件 中 设 
置 handler 来 说 明 type-map 文件 的 后 级 名 。 例 如 : 


AddHandler type-map .var 
这 行 就 说 明了 后 缀 是 var 的 文件 就 是 type-map 文件 。 
这 里 给 出 一 个 type-map 文件 示例 : 

URI: joes-hardware.html 


URI: joes-hardware.en.html 

Content-type: text/html 

Content-language: en 

URI: joes-hardware.fr.de.html 
Content-type: text/html;charset=iso-8859-2 
Content-language: fr, de 


根据 这 个 type-map 文件 ，Apache 服务 器 就 知道 要 发 送 joes-hardware.en.html 给 请 求 
英语 版 的 客户 端 ， 发 送 joes-hardware.fr.de.html 给 请 求法 语 版 的 客户 端 。Apache JR 
务 器 也 支持 质量 值 ， 具 体 信息 请 参阅 它 的 文档 。 





2. 使 用 MultiView 


为 了 使 用 MultiView， 必 须 在 网 站 目录 下 的 access.conf 文件 中 的 适当 小 节 (<Directory>、 
«Location», X «Files») 使 用 OPTION 指令 来 启用 它 





如 果 启 用 了 MultiView， 而 浏览 器 又 请 求 了 名 为 joes-hardware 的 资源 ， 服 务 器 就 会 
de nn 含有 joes-hardware 的 文件 ， 并 为 它们 创建 type-map 文件 。 服 务 器 会 
根据 名 字 猜 测 其 对 应 的 内 容 协 商 首部 集 。 例 如 ， 法 语 版 的 joes-hardware 应 当 含 有 fro 








17.3.5 ”服务 器 端 扩 展 
一 种 在 服务 器 端 实现 内 容 协商 的 方法 是 使 用 服务 器 端 扩 展 ， 比 如 微软 的 动态 服务 
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器 页 面 (Microsoft's Active Server Pages，ASP)。 参 见 第 8 章 中 关于 服务 器 端 扩 展 的 
综述 。 


17.4 透明 协商 


透明 协商 机 制 试图 从 服务 器 上 去 除 服 务 器 驱动 协商 所 需 的 负载 ， 并 用 中 间 代 理 来 代 
表 客 户 端 以 使 与 客户 端的 报 文 交 换 最 小 化 。 假 定 代 理 了 解 客 户 端的 预期 ， 这 样 就 可 
以 代表 客户 端 与 服务 器 协商 (在 客户 端 请 求 内 容 的 时 候 ， 代 理 已 经 收 到 了 客户 端的 
预期 )。 为 了 支持 透明 内 容 协 商 ， 服 务 器 必须 有 能 力 告知 代理 ， 服 务 器 需要 检查 哪些 
请 求 首部 ， 以 便 对 客户 端的 请 求 进行 最 佳 匹配 。HTTP/1.1 规范 中 没有 定义 任何 透明 
协商 机 制 ， 但 定义 了 vary 首部 。 服 务 器 在 响应 中 发 送 了 vary 首部， 以 告知 中 间 市 
点 需要 使 用 哪些 请 求 首部 进行 内 容 协商 。 


代理 缓存 可 以 为 通过 单个 URL 访问 的 文档 保存 不 同 的 副本 。 如 果 服 务 器 把 它们 的 决 
策 过 程 传 给 缓存 ， 这 些 代理 就 能 代表 服务 器 与 客户 端 进行 协商 。 缓 存 同 时 也 是 进行 
内 容 转 码 的 好 地 方 ， 因 为 部 署 在 缓存 里 的 通用 转 码 器 能 对 任意 服务 器 ， 而 不 仅仅 是 
一 台 服 务 器 传 来 的 内 容 进行 转 码 。 图 17-3 中 展示 了 缓存 对 内 容 进行 转 码 的 情况 ， 本 
章 后 面 会 更 详细 地 探讨 。 












































17.4.1 进行 缓存 与 备用 候选 

对 内 容 进 行 缓存 的 时 候 是 假设 内 容 以 后 还 可 以 重用 。 然 而 ， 为 了 确保 对 客户 端 请 求 
回 送 的 是 正确 的 已 缓存 响应 ， 缓 存 必 须 应 用 服务 器 在 回 送 响应 时 所 用 到 的 大 部 分 决 
RIZ ER o 


B HRR f 2e) 3 A XSHJ Accept 首部 集 ， 以 及 为 了 给 每 条 请 求 选择 最 佳 的 响应 ， 
服务 器 使 用 的 与 这 些 首部 集 匹配 的 相应 实体 首部 集 。 缓 存 也 必须 使 用 相同 的 首部 集 
来 决定 回 送 哪个 已 缓存 的 响应 。 


17-1 展示 了 涉及 缓存 的 正确 及 错误 的 操作 序列 。 缓 存 把 第 一 个 请 求 转发 给 服务 
器 ， 并 存储 其 响应 。 对 于 第 二 个 请 求 ， 缓 存根 据 URL 查找 到 了 匹配 的 文档 。 但 是 ， 
这 份 文 档 是 法 语 版 的 ， 而 请 求 者 想 要 的 是 西班牙 语 版 的 。 如 果 缓 存 只 是 把 文档 的 法 
语 版 本 发 给 请 求 者 的 话 ， 它 就 犯 了 错误 。 


因此 ， 缓 存 也 应 该 把 第 二 条 请 求 转发 给 服务 器 ， 并 保存 该 URL 的 响应 与 “备用 候 
选 ”响应 。 缓 存 现在 就 保存 了 同一 个 URL 的 两 份 不 同 的 文档 ， 与 服务 器 上 一 样 。 这 
些 不 同 的 版 本 称 为 变 体 (variant) 或 备用 候选 (alternate) 。 内 容 协 商 可 看 成 是 为 客 
户 端 请 求 选 择 最 合适 变 体 的 过 程 。 
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GET / HTTP/1.1 : 
,| Host: www. joes-hardware.com Hi! Welcome to 
'| User-agent: spiffy multimedia browser Joe's Hardware 
Accept-language: fr;q=1.0 Store. 










Hola! Bienvenido 
EE » HE a Joe's Hardware 
: Store. 








4 Bonjour 








法 语 用 户 À x Í Bonjour! 
x : i Web 服 务 器 is bic enue a Joe's 
Hardware Store 

















GET / HTTP/1.1 

Host: www.joes-hardware.com 

| User-agent: spiffy multimedia browser 
Accept-language: es;q=1.0 














Hola! Bienvenido 


py | + ed | a Joe's Hardware 
>x Bonjour pi » Store. 


西班牙 语 用 户 ”Web 服务 器 
4 Bienvenido d 












































图 17-1. 缓存 根据 内 容 协商 首部 发 送 给 客户 端正 确 的 响应 


17.4.2 Vary 首 部 
这 里 是 浏览 器 和 服务 器 发 送 的 一 些 典 型 的 请 求 及 响应 首部 : 


GET http://www.joes-hardware.com/ HTTP/1.0 

Proxy-Connection: Keep-Alive 

User-Agent: Mozilla/4.73 [en] (WinNT; U) 

Host: www.joes-hardware.com 

Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/ 
png, */* 

Accept-Encoding: gzip 

Accept-Language: en, pdf 

Accept-Charset: iso-8859-1, *, utf-8 





HTTP/1.1 200 OK 

Date: Sun, 10 Dec 2000 22:13:40 GMT 

Server: Apache/1.3.12 OpenSSL/0.9.5a (Unix) FrontPage/4.0.4.3 
Last-Modified: Fri, 05 May 2000 04:42:52 GMT 

Etag: "1b7ddf-48-3912514c" 

Accept-Ranges: Bytes 

Content-Length: 72 

Connection: close 

Content-Type: text/html 





然而 ， 如 果 服 务 器 的 决策 不 是 依据 Accept 首部 集 ， 而 是 比如 User-Agent 首部 的 
话 ， 情 况 会 如 何 ?” 这 不 像 听 起 来 这 么 极端 。 例 如 ， 服 务 器 可 能 知道 老 版 本 的 浏览 器 
不 支持 JavaScript 语言 ， 因 此 可 能 会 回 送 不 包含 JavaScript 的 页 面 版 本 。 如 果 服 务 
器 是 根据 其 他 首部 来 决定 发 送 哪 个 页 面 的 话 ， 缓 存 必须 知道 这 些 首部 是 什么 ， 这 样 
才能 在 选择 回 送 的 页 面 时 做 出 同样 的 逻辑 判断 。 





HTTP 的 vary 响应 首部 中 列 出 了 所 有 客户 端 请 求 首部 ， 服 务 器 可 用 这 些 首部 来 选择 
文档 或 产生 定制 的 内 容 (在 常规 的 内 容 协 商 首部 集 之 外 的 内 容 )。 例 如 ， 若 所 提供 的 
文档 取决 于 User-Agent 首部 ，Vary 首部 就 必须 包含 User-Agent, 


当 新 的 请 求 到 达 时 ， 缓 存 会 根据 内 容 协 商 首部 集 来 寻找 最 佳 匹 配 。 但 在 把 文档 提供 
给 客户 端 之 前 ， 它 必须 检查 服务 器 有 没有 在 已 缓存 响应 中 发 送 Vary 首部 。 如 果 有 
vary 首部 ， 那 么 新 请 求 中 那些 首部 的 值 必须 与 旧 的 已 缓存 请 求 里 相应 的 首部 相同 。 
因为 服务 器 可 能 会 根据 客户 端 请 求 的 首部 来 改变 响应 ， 为 了 实现 透明 协商 ， 缓 存 必 
须 为 每 个 已 缓存 变 体 保存 客户 端 请 求 首 部 和 相应 的 服务 器 响应 首部 ， 参 见 图 17-2。 


















































GET / HTTP/1.1 我 需要 给 她 发 送 一 份 法 语 
| Host: www.joes-hardware.com 版 的 文档 。 她 的 浏览 器 很 
User-agent: spiffy multimedia browser HE, MURER 
Accept-language: fr;q=1.0 页 面 的 富 媒体 版 本 给 她 。 
N 
- OO » 
ES Au 
iere OK 
Ses 、 Content-language: fr m 
法 语 用 户 1 Vary: User-ageñt Web 服 务 
| Bonjour 
缓存 [...media-rich content] 






































GET / HTTP/1.1 他 要 该 文档 的 法 语 版 ， 我 的 缓存 里 
,| Host: www.joes-hardware.com 有 ， 但 我 不 应 该 发 给 他 这 个 版 本 。 
User-agent: wimpy wireless device 服务 器 说 我 的 这 个 版 本 是 给 高 性 能 
Accept-language: fr;q=1.0 的 浏览 器 用 的 ， 而 这 个 用 户 用 的 却 
z 是 低 性 能 的 无 线 浏览 器 。 我 最 好 向 
i. H 服务 器 要 一 份 为 无 线 浏览 器 定制 的 
Jj pee 法 语 版 本 。 
地 ; Y 
ee i 
qas E aa n 
HTTP/1.1 200 OK i 
, T Content-language: fr : 
法 语 用 户 2 4 Bonjour 十 …| Vary: User-agent A Web 服务 器 
- = = | Bonjour 
缓存 [...simple text content] 

















17-2 ”如 果 服务 器 根据 特定 的 请 求 首 部 集 来 选择 变 体 , 缓存 必须 在 发 送 回 缓存 的 响应 之 前 ， 
检查 常规 的 内 容 协 商 首 部 集 和 这 些 请 求 首部 
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如 果 某 服务 器 的 vary 首部 看 起 来 像 下 面 这 样 ， 大 量 不 同 的 User-Agent 和 cookie 
值 将 会 产生 非常 多 的 变 体 : 


Vary: User-Agent, Cookie 


缓存 必须 为 每 个 变 体 保存 其 相应 的 文档 版 本 。 当 缓存 执行 查找 时 ， 首 先 会 对 内 容 协 
商 首部 集 进行 内 容 匹 配 ， 然 后 比较 请 求 的 变 体 与 缓存 的 变 体 。 如 果 无 法 匹配 ， 缓 存 
就 从 原始 服务 器 获取 文档 。 


17.5 转 码 

我 们 已 经 讨论 了 一 个 机 制 ， 该 机 制 可 以 让 客户 端 和 服务 器 从 某 个 URL 的 一 系列 文档 
中 挑选 出 最 适合 客户 端的 文档 。 实 现 这 些 机 制 的 前 提 是 ， 存 在 一 些 满足 客户 端 需求 
的 文档 一 一 不 管 是 完全 满足 还 是 在 一 定 程 度 上 满足 。 

然而 ， 如 果 服 务 器 没有 能 满足 客户 端 需求 的 文档 会 怎么 样 呢 ? 服务 器 可 以 给 出 一 个 
错误 响应 。 但 理论 上 ， 服 务 器 可 以 把 现存 的 文档 转换 成 某 种 客户 端 可 用 的 文档 。 这 
种 选项 称 为 转 码 。 

表 17-4 列 出 了 一 些 假 设 的 转 码 。 


表 17-4 假设 的 转 码 





















































转换 之 前 转换 之 后 
HTML 文档 WML 文档 
高 分 辩 率 图 像 低 分 辨 率 图 像 
彩色 图 像 黑白 图 像 
有 多 个 框架 的 复杂 页 面 没有 很 多 框架 或 图 像 的 简单 文本 页 面 








有 Java 小 应 用 程序 的 HTML 页 面 没有 Java 小 应 用 程序 的 HTML 页 面 
有 广告 的 页 面 去 除 广告 的 页 面 

















有 3 种 类 别 的 转 码 : 格式 转换 、 信 息 综 合 以 及 内 容 注 入 。 


17.5.4 格式 转换 

格式 转换 是 指 将 数据 从 一 种 格式 转换 成 另 一 种 格式 ， 使 之 可 以 被 客户 端 查看 。 通 过 
HTML 到 WML 的 转换 ， 无 线 设备 就 可 以 访问 通常 供 桌 面 客 户 端 查看 的 文档 了 。 通 
过 慢 速 连 接 访问 Web 页 面 的 客户 端 并 不 需要 接收 高 分 辩 率 图 像 ， 如 果 通 过 格式 转换 
降低 图 像 分 辩 率 和 颜色 来 减 小 图 像 文 件 大 小 的 话 ， 这 类 客户 端 就 能 更 容易 地 查看 图 
像 比较 丰富 的 页 面 了 。 





























422 | 第 17 章 


格式 转换 可 以 由 表 17-2 中 列 出 的 内 容 协商 首部 集 来 驱动 ， 但 也 能 由 User-Agent Ë 
部 来 驱动 。 注 意 ， 内 容 转换 或 转 码 与 内 容 编码 或 传输 编码 是 不 同 的 ， 后 两 者 一 般 用 
于 更 高 效 或 安全 地 传输 内 容 ， 而 前 两 者 则 可 使 访问 设备 能 够 查看 内 容 。 





17.5.2 ”信息 综合 

从 文档 中 提取 关键 的 信息 片段 称 为 信息 综合 (information synthesis) ， 这 是 一 种 有 用 
的 转 码 操作 。 这 种 操作 的 例子 包括 根据 小 节 标 题 生 成 文档 的 大 纲 ， 或 者 从 页 面 中 删 
除 广告 和 商标 。 


根据 内 容 中 的 关键 字 对 页 面 分 类 是 更 精细 的 技术 ， 有 助 于 总 结 文 档 的 精髓 。 这 种 技 
术 常 用 于 Web 页 面 分 类 系统 中 ， 比 如 门户 网 站 的 Web 页 面目 录 。 


17.5.3 ”内容 注入 
前 面 描述 的 两 类 转 码 通常 会 减少 Web 文档 的 内 容 ， 但 还 有 另 一 类 转换 会 增加 文档 的 
内 容 ， 即 内 容 注 入 转 码 。 内 容 注 入 转 码 的 例子 有 自动 广告 生成 器 和 用 户 追 踪 系 统 。 


设想 一 下 ， 一 个 能 往 途 经 的 每 个 HTML 页 面 中 自动 添加 广告 的 广告 植 入 转 码 器 是 多 
么 的 诱 人 (当然 也 很 烦人 )。 这 类 转 码 操作 只 能 动态 进行 一 一 它 必 须 即 时 添加 与 当前 
的 特定 用 户 有 关 ， 或 针对 特定 用 户 的 广告 。 也 可 以 构建 用 户 追 踪 系 统 ， 在 页 面 中 动 
态 增加 内 容 ， 用 于 收集 用 户 查 看 页 面 和 客户 端 浏 览 方式 的 统计 信息 。 


17.5.4” 转 码 与 静态 预 生成 的 对 比 

转 码 的 替代 做 法 是 在 Web 服务 器 上 建立 Web 页 面 的 不 同 副 本 ， 例 如 一 个 是 HTML, 
一 个 是 WML; 一 个 图 像 分 状 率 高 ， 一 个 图 像 分 辨 率 低 ， 一 个 有 多 媒体 内 容 ， 一 个 
没有 。 但 是 ， 这 种 方法 不 是 很 切合 实际 ， 原 因 很 多 : 某 个 页 面 中 的 任何 小 改动 都 会 
牵扯 很 多 页 面 ， 需 要 很 多 空间 来 存储 各 页 面 的 不 同 版 本 ， 而 且 使 页 面 编目 和 Web 
服务 器 编程 (以 提供 正确 的 版 本 ) 变 得 更 加 困难 。 有 些 转 码 操作 ， 比 如 广告 插入 
(尤其 是 定向 广告 插入 )， 就 不 能 静态 实现 一 一 因为 插入 什么 广告 和 请 求 页 面 的 用 户 
有 关 。 

对 单一 的 根 页 面 进行 即时 转换 ， 是 比 静态 的 预 生 成 更 容易 的 解决 方案 。 但 这 样 会 在 
提供 内 容 时 增加 时 延 。 不 过 有 时 候 其 中 一 些 计 算 可 以 由 第 三 方 进行 ， 这 样 就 减少 了 
Web 服务 器 上 的 计算 负荷 一 一 比如 可 以 由 代理 或 缓 在 中 的 外 部 Agent 完成 转换 。 图 
17-3 显示 了 在 代理 缓存 中 进行 的 转 码 。 
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GET / HTTP/1.1 

Host: www.joes-hardware.com 

| User-agent: wimpy wireless device 
Accept- language: fryq=1.0 














: 我 有 他 想 要 的 文档 的 法 语 版 ， 
但 我 的 副本 中 富 含 各 种 媒体 ， 
Y -一 于。 而 他 用 的 却 是 低 性 角 PT. 


rfi 
浏览 器 。 我 要 把 所 有 的 多 媒 
sonjo A 体内 容 去 掉 再 发 送 给 他 。 
AN. 、 /7 
法 语 用 户 | bonjour E| EE A, [jn 


Ë: A 
我 已 经 为 这 份 文档 做 了 
针对 无 线 设备 的 转换 ， HTTP/1.1 200 OK : 
我 要 把 转换 后 的 副本 作 | | Content-language: fr : 
为 备用 候选 保存 起 来 ， Vary: User-agent —— M 
以 备 他 人 之 需 。 

















A 




















Bonjour 
[...simple text content] 

















17-3 ”在 代理 缓存 中 进行 转换 或 转 码 


17.6 下 一 步 计划 


由 于 以 下 两 个 原因 ， 内 容 协商 这 个 话题 不 只 限于 Accept 和 content 这 两 个 首部 集 。 





HTTP 中 的 内 容 协 商 受到 一 些 性 能 方面 的 限制 。 在 各 种 变 体 中 搜索 合适 的 内 容 ， 
或 尽力 “猜测 ”最 佳 匹 配 ， 都 会 有 很 大 开销 。 AAA 
议 以 使 这 个 过 程 更 高 效 ? RFC 2295 和 RFC2296 尝试 着 对 这 个 问题 进行 了 研究 ， 
以 提供 透明 的 HTTP 内 容 协 商 。 

HTTP 不 是 唯一 需要 进行 内 容 协商 的 协议 。 在 其 他 一 些 情况 下 ， 客 户 端 也 需要 和 
服务 器 交互 以 便 获得 对 客户 端 请求 来 说 最 好 的 答案 ， 流 媒体 和 传真 就 是 另外 两 个 
例子 。 能 否 在 TCP/IP 应 用 层 协议 之 上 开发 出 通用 的 内 容 协商 协议 呢 ? 内 容 协 商 
工作 组 (Content Negotiation Working Group) 就 是 专门 为 这 个 问题 而 成 立 的 。 这 
个 工作 组 目前 已 经 停止 工作 了 ， 不 过 它 提 出 了 若干 个 RFC。 在 下 一 节 中 ， 我们 给 
出 了 这 个 组 的 网 站 链接 。 





17.7 更 多 信息 


从 下 面 的 因特网 草案 和 在 线 文 档 中 可 以 获得 更 多 内 容 协商 方面 的 信息 。 
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http://www ietf.org/rfc/rfc2616.txt 

RFC 2616, "Hypertext Transfer Protocol-HTTP/1.1”(“ 超 文本 传输 协议 HTTP/1.1"), 
这 是 HTTP 协议 的 当前 版 本 ， 也 是 HTTP/1.1 的 官方 规范 。 这 份 规范 行文 流畅 、 
组 织 良 好 ， 是 份 详实 的 HTTP 参考 文献 。 不 过 对 那些 希望 学 习 HTTP 背后 的 各 种 
概念 和 决策 动机 、 弄 清理 论 与 实践 不 同 之 处 的 读者 来 说 ， 它 就 不 是 很 理想 了 。 我 
们 希望 本 书 能 补足 背后 的 这 些 概念 ， 使 读者 能 更 好 地 利用 这 份 规范 。 





http://www ietf.org/rfc/rfc2295.txt 

RFC 2295, "Transparent Content Negotiation in HTTP" (“HTTP 中 的 透明 内 容 协 
商 ”)， 这 是 一 份 备忘录 ， 描 述 了 建立 在 HTTP 之 上 的 透明 内 容 协商 协议 。 这 份 备 
忘 录 目 前 还 是 实验 性 的 。 





http://www.ietf.org/rfc/rfc2296.txt 

RFC 2296, “HTTP Remote Variant Selection Algorithm RVSA 1.0”(“HTTP 远程 
变 体 选择 算法 RVSA1.0”)， 这 份 备忘录 描述 了 为 特定 的 HTTP 请 求 透明 地 选择 
“最 佳 ” 内 容 的 算法 。 这 份 备忘录 目前 还 是 实验 性 的 。 


http://www.ietf.org/rfc/rfc2936.txt 

RFC 2936,“HTTP MIME Type Handler Detection”(“HTTP MIME 类 型 处 理 器 检 
济 ”)， 这 份 备忘录 描述 了 一 种 用 来 判定 浏览 器 支持 的 MIME 类 型 处 理 器 的 方法 。 
如 果 Accept 首部 不 够 明确 的 话 ， 这 种 方法 就 能 派 上 用 场 。 








http://www.imc.org/ietf-medfree/index.htm 
这 个 链接 指向 内 容 协商 (简称 CONNEG) 工作 组 网 站 。 该 工作 组 专注 于 HTTP, 
传真 和 打印 方面 的 透明 内 容 协 商 。 这 个 工作 组 目前 已 停止 工作 。 
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第 五 部 分 


HS ARTISTA 





第 五 部 分 讲述 了 Web 内 容 发 布 和 传播 的 各 种 技术 。 


。 第 18 章 介 绍 了 在 现代 的 Web 托管 环境 中 部 署 服务 器 的 若干 方法 ，HTTP 对 虚拟 
Web 托管 的 支持 以 及 如 何在 地 理 上 相距 遥远 的 服务 器 之 间 复 制 内 容 。 

。 第 19 章 讨论 了 创建 Web 内 容 并 将 其 放置 到 Web 服务 器 上 去 的 各 种 技术 。 

。 第 20 章 探讨 了 各 种 将 来 访 的 Web 流量 分 发 到 一 组 服务 器 上 的 技术 和 工具 。 

。 第 21 章 解释 了 日 志 的 各 种 格式 和 各 种 常见 问题 。 
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Web 主 机 托管 
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当 你 把 资源 放 在 公共 的 Web 服务 器 上 时 ， 因 特 网 社区 就 可 以 使 用 它们 了 。 这 些 资源 
可 以 是 简单 的 文本 文件 或 图 像 ， 也 可 以 是 复杂 的 实时 导航 地 图 或 电子 商务 购物 网 关 。 
能 够 将 这 些 由 不 同 组 织 拥 有 的 种 类 繁多 的 资源 便利 地 发 布 到 网 站 上 ， 并 将 其 放置 在 
能 以 合理 价格 提供 很 好 性 能 的 Web 服务 器 上 ， 是 很 关键 的 。 











对 内 容 资 源 的 存储 、 协 调 以 及 管理 的 职责 统称 为 Web 主机 托管 。 主 机 托管 是 Web 
服务 器 的 主要 功能 之 一 。 保 存 并 提供 内 容 ， 记 录 对 内 容 的 访问 以 及 管理 内 容 都 离 不 
开 服 务 器 。 如 果 不 想 自行 管理 服务 器 所 需 的 软 硬 件 ， 就 需要 主机 托管 服务 ， 即 托管 
者 。 托 管 者 出 租 服务 和 网 站 管理 维护 业务 ， 并 提供 各 种 不 同 程度 的 安全 级 别 、 报 告 
及 易 用 性 。 托 管 者 通常 把 很 多 网 站 放 在 一 些 强 大 的 Web 服务 器 上 联合 运行 ， 这 样 可 
以 获得 更 高 的 成 本 效益 、 可 靠 性 和 性 能 。 


本 章 讲解 Web 主机 托管 服务 中 的 某 些 重要 特征 和 它们 如 何 与 HTTP 应 用 程序 交互 。 
本 章 的 主要 内 容 包 括 : 


。 不 同 的 网 站 如 何 被 “虚拟 地 托管 ”在 同一 个 服务 器 上 ， 这 样 会 对 HTTP 产生 怎样 
的 影响 ， 

。 在 很 大 的 流量 压力 下 ， 如 何 确保 网 站 更 可 靠 ， 

° 如 何 使 网 站 加 载 更 快 。 


18.1 主机 托管 服务 


在 万 维 网 的 早期 ， 每 个 组 织 自 行 购买 自己 的 计算 机 硬件 ， 搭 建 自己 的 计算 机 房 ， 申 
请 自己 的 网 络 连接 ， 并 管理 自己 的 Web 服务 器 软件 。 


随 着 Web 迅速 成 为 主流 ， 每 人 都 想 要 一 个 网 站 ， 但 很 少 有 人 有 能 力 或 时 间 来 搭建 带 
空调 的 服务 器 机 房 ， 注 册 域 名 ， 或 购买 网 络 带宽 。 为 了 满足 人 们 的 迫切 需求 ， 出 现 
了 很 多 新 的 企业 ， 提 供 了 专业 化 管理 的 Web 主机 托管 服务 。 服 务 级 别 有 多 种 ， 从 物 
理 上 的 设备 管理 〈 提 供 空 间 、 空 调 以 及 线 缆 ) 到 完整 的 Web 主机 托管 ， 顾 客 只 需 
提供 内 容 就 行 了 。 


本 章 主要 探讨 托管 Web 服务 器 要 提供 什么 服务 。 网 站 运作 需要 的 很 多 东西 (例如 ， 
它 支 持 不 同 语言 的 能 力 和 进行 安全 的 电子 商务 交易 的 能 力 ) 都 取决 于 托管 Web 服务 
器 提供 的 功能 。 


简单 例子 一 一 专用 托管 
假设 Joe 的 五 金 商 店 和 Mary 的 古董 拍卖 店 都 需要 大 容量 的 网 站 。Irene 网 络 服务 提供 
商 那 里 有 很 多 机 架 ， 机 架 上 全 是 一 样 的 高 性 能 Web 服务 器 ， 可 以 租 给 Joe 和 Mary, 
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这 样 ， 他 俩 就 不 用 自行 购买 自己 的 服务 器 并 管理 服务 器 软件 了 。 





在 图 18-1 rB, Joe 和 Mary 都 签约 使 用 Irene 的 网 络 服务 提供 商 提供 的 专用 Web 4€ 
管 服务 。Joe 租 了 专用 的 Web 服务 器 ， 该 服务 器 是 Irene 网 络 服务 提供 商 购买 和 维 
护 的 。Mary 也 从 Irene 网 络 服务 提供 商 那 里 租 了 另 一 个 专用 服务 器 。Irene 网 络 服务 
提供 商 大 批量 地 购买 服务 器 硬件 ， 它 们 选择 的 硬件 经 久 耐 用 且 相 对 便宜 。 如 果 Joe 
或 Mary 的 网 站 变 得 更 受 欢迎 ，Irene 网 络 服务 提供 商 可 以 立刻 给 Joe 或 Mary 提供 
更 多 的 服务 器 。 





Jrene 的 网 络 服务 提供 商 ' 
' WWW. joes-hardware.com = 
< ERR 
' ' 
' ' 
' www.cajun-gifts.com B ' Joe 
' ' 
- 
" ' 
Ñ www.marys-antıques.com | AX 
' s u II 
' ' 
1 ' 
! Www.irenes-isp.com i 
' 




















|| Mary 











18-1 外 包 的 专用 托管 服务 


在 这 个 例子 中 ， 浏 览 器 向 Joe 服务 器 的 耳 地 址 发 送 对 www.joes-hardware.com 的 
HTTP 请 求 ， 向 Mary 服务 器 (AEF Joe) 的 IP 地 址 发 送 对 www.marys-antiques. 
com 的 请 求 。 


18.2 ”虚拟 主机 托管 


许多 人 想 要 在 Web 上 展现 自己 ,但 他 们 的 网 站 流量 都 不 大 。 对 这 些 人 来 说 ， 使 用 专 
用 的 Web 服务 器 可 能 有 点 儿 大 材 小 用 ， 因 为 他 们 每 月 花费 数 百 美元 租 来 的 服务 器 大 
部 分 时 间 都 是 空闲 的 ! 

许多 Web 托管 者 通过 让 一 些 顾客 共享 一 台 计 算 机 来 提供 便宜 的 Web 主机 托管 服务 。 
这 称 为 共享 主机 托管 或 虚拟 主机 托管 。 每 个 网 站 看 起 来 是 托管 在 不 同 的 服务 器 上 ， 
但 实际 上 是 托管 在 同一 个 物理 服务 器 上 。 从 最 终 用 户 的 角度 来 看 ， 被 虚拟 托管 的 网 
站 应 当 和 托管 在 专用 服务 器 上 的 网 站 没什么 区 别 。 


从 成 本 效益 、 空 间 以 及 管理 方面 考虑 ， 提 供 虚 拟 主 机 托管 的 公司 希望 能 在 同一 个 
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服务 器 上 托管 数 十 、 上 百 ， 甚 至 上 千 个 网 站 一 一 但 这 不 一 定 意味 着 上 千 个 网 站 是 
用 一 台 PC 机 来 提供 服务 的 。 托管 者 可 以 创建 成 排 同样 的 服务 中 ， 称 为 服务 器 集群 
(server farm)， 把 负载 分 摊 在 群 里 的 服务 器 上 。 因 为 群 里 的 每 台 服 务 器 都 一 样 ， 并 
且 托管 了 许多 虚拟 网 站 ， 所 以 管理 起 来 更 加 方便 。( 我 们 将 在 第 20 章 更 详细 地 介绍 
服务 器 集群 。) 


当 Joe 和 Mary 刚 开 始 商务 运作 时 ， 他 们 可 能 会 选择 虚拟 主机 托管 ， 以 节省 费用 ， 
直到 他 们 网 站 的 流量 规模 达到 值得 使 用 专用 服务 器 的 水 平 为 止 (参见 图 18-2 ) 。 





























' Iene 的 网 络 pe aA. 
|o 服务 提供 商 Bo 
1 WWw.joes- fidi com 

| 内 容 g 


| WWw.marys-antiques.com, 
1 


i www.cajun-gifts.com B 
| Mary 
特 网 1l 
' 
' B 
客户 端 ' 
! www.irenes-isp.com 
' 


























18-2 ”外包 的 虚拟 主机 托管 


18.2.1 虚拟 服务 器 请 求 缺乏 主机 信息 


不 幸 的 是 ，HTTP/1.0 中 的 一 个 设计 缺陷 会 使 虚拟 主机 托管 者 抓 狂 。HTTP/1.0 规范 中 
没有 为 共享 的 Web 服务 器 提供 任何 方法 来 识别 要 访问 的 是 所 托管 的 哪个 虚拟 网 站 。 


回想 一 下 ，HTTP/1.0 请 求 在 报 文中 只 发 送 了 URL 的 路 径 部 分 。 如 果 要 访问 http:// 
www.joes-hardware.com/index.html， 浏 览 器 会 连接 到 服务 器 www.joes-hardware. 
com， 但 HTTP/1.0 请 求 中 只 提 到 GET /index.html， 没 有 提 到 主机 名 。 如 果 服 务 器 
虚拟 托管 了 多 个 站 点 ， 就 没有 足够 的 信息 能 指出 要 访问 的 是 哪个 虚拟 网 站 。 图 18-3 
就 是 这 样 的 一 个 示例 。 





° 如 果 客 户 端 A 试 图 访问 http://www.joes-hardware.com/index.html， 请 求 GET/ 
index.html 将 被 发 送 到 共享 的 Web 服务 器 。 

° 如 果 客 户 端 B 试图 访问 http://www.marys-antiques.com/index.html， 同 样 的 请 求 
GET /index.html 也 将 被 发 送 到 共享 的 Web 服务 器 
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(A 想 访问 http:/www.joes-hardware.comyindex.htm]) 


GET /index.html HTTP/1.0 
User-agent: SuperBrowser v1.3 


客户 端 A 因特网 





www.voting-info.gov 
www.joes-hardware.com 
www.marys-antiques.com 














/voting /mary /joe | 


qo 1 ^8 n Bj 











AMB [GET [index.html HTTP/1.0 HTTP/1.0 请 求 没有 包含 主机 名 信息 ， 因 此 
User-agent: WebSurfer 2000 不 能 支持 托管 了 多 个 网 站 的 Web 服 务 器 。 























(B 想 访问 http://www.marys-antiques.com/index.html) (HTTP/1.1 支 持 的 Host 首 部 解决 了 这 个 问题 。) 























18-3 HTTP/1.0 服务 器 请 求 中 没有 主机 名 信息 


就 Web 服务 器 而 言 ， 没 有 足够 的 信息 可 供 其 判断 究竟 要 访问 的 是 哪个 网 站 。 尽 管 请 
求 的 是 完全 不 同 的 文档 (来 自 不 同 的 网 站 )， 但 这 两 个 请 求 看 起 来 是 一 样 的 ， 这 是 因 
为 网 站 的 主机 信息 已 经 从 请 求 中 剥离 了 。 


我 们 已 经 在 第 6 章 中 介绍 过 ，HTTP 替代 物 ( 反 向 代理 ) 和 拦截 代理 也 都 需要 明确 
的 站 点 信息 。 


18.2.2 ”设法 让 虚拟 主机 托管 正常 工作 

缺失 的 主机 信息 是 原始 HTTP 规范 的 政 忽 ， 它 错误 地 假设 了 每 个 Web 服务 器 上 只 
托管 了 一 个 网 站 。HTTP 的 设计 者 没有 为 进行 虚拟 主机 托管 的 共享 服务 器 提供 支持 。 
正 因为 如 此 ，URL 中 的 主机 名 信息 被 当 作 宛 余 信 息 剥 离 了 ， 只 要 求 发 送 路 径 部 分 。 


为 早期 的 规范 没有 考虑 到 虚拟 主机 托管 ，Web 托管 者 需要 开发 变通 的 方案 和 约定 
来 支持 共享 的 虚拟 主机 托管 。 这 个 问题 本 可 以 通过 要 求 所 有 HTTP 请 求 报 文 发 送 完 
整 的 URL 而 不 只 是 路 径 部 分 来 简单 地 解决 。 而 HTTP/1.1 的 确 要 求 服务 器 能 够 处 理 
HTTP 报 文 请 求 行 上 的 完整 URL， 但 将 现存 的 应 用 程序 都 升级 到 这 个 规范 还 需要 很 
长 时 间 。 在 此 期 间 ， 涌 现 了 以 下 4 种 技术 。 


° 通过 URL 路 径 进行 虚拟 主机 托管 
在 URL 中 增添 专门 的 路 径 部 分 ， 以 便服 务 器 判断 是 哪个 网 站 。 
° 通过 端口 号 进行 主机 托管 
为 每 个 站 点 分 配 不 同 的 端口 号 ， 这 样 请 求 就 由 Web 服务 器 的 单独 实例 来 处 理 。 
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° 通过 IP 地 址 进行 主机 托管 
为 不 同 的 虚拟 站 点 分 配 专门 的 卫 地 址 ， 把 这 些 地 址 都 绑 定 到 一 台 单 独 的 机 器 上 。 
这 样 ，Web 服务 器 就 可 以 通过 IP 地 址 来 识别 网 站 名 了 。 

。 通过 Host 首部 进行 主机 托管 
很 多 Web 托管 者 向 HTTP 的 设计 者 施 压 ， 要 求解 决 这 个 问题 。HTTP/1.0 的 增强 
版 和 HTTP/1.1 的 正式 版 定义 了 Host 请 求 首部 来 携带 网 站 名 称 。Web 服务 器 可 
以 通过 Host 首部 识别 虚拟 站 点 。 


接 下 来 详细 介绍 每 种 技术 。 





1. 通过 URL 路 径 进行 虚拟 主机 托管 

可 以 通过 分 配 不 同 的 URL 路 径 ， 用 这 种 策 方 法 把 共享 服务 器 上 的 虚拟 站 点 隔离 开 。 
例如 ， 可 以 给 每 个 逻辑 网 站 一 个 专门 的 路 径 前 级 。 

° Joe 的 五 金 商店 可 以 是 : http://www.joes-hardware.com/joe/index.html。 

° Mary 的 古董 拍卖 店 可 以 是 : http://www.marys-antiques.com/mary/index.html。 


当 请 求 到 达 服 务 器 时 ， 其 中 并 没有 主机 名 信息 ， 但 服务 器 可 以 通过 路 径 来 区 分 它们 。 


° 请 求 Joe 的 五 金 商店 的 网 址 是 GET /joe/index.html。 
° 请 求 Mary 的 古董 拍卖 店 的 网 址 是 GET /mary/index.html。 


这 不 是 一 个 好 办 法 。/joe 和 /mary 这 样 的 前 缀 是 多 余 的 (主机 名 中 已 经 提 到 joe T). 
更 糟 的 是 ， 描 述 主页 链接 的 常见 约定 : http://www.joes-hardware.com & http://www. 
joes-hardware.com/index.html 都 不 能 用 了 。 








总 之 ， 按 URL 来 进行 虚拟 主机 托管 是 一 个 糟糕 的 解决 方案 ,很 少 会 用 到 。 


2. 通过 端口 号 进行 虚拟 主机 托管 

除了 修改 路 径 名 ， 还 可 以 在 Web 服务 器 上 为 Joe 和 Mary 的 网 站 分 配 不 同 的 端口 号 。 
不 再 使 用 端口 80， 而 是 采用 其 他 端口 号 ， 例如，Joe 用 82 Mary, JH 83。 但 这 个 解 
决 方案 也 有 同样 的 问题 : 终端 用 户 不 会 乐意 在 URL 中 指定 非 标准 的 端口 号 。 





3. 通过 IP 地 址 进行 虚拟 主机 托管 

一 个 更 常用 的 、 更 好 的 方法 是 通过 IP 地 址 进行 虚拟 化 。 每 个 虚拟 网 站 都 分 配 一 个 或 
多 个 唯一 的 IP 地址 。 所 有 虚拟 网 站 的 IP 地 址 都 绑 定 到 同一 个 共享 的 服务 器 上 。 服 
务 器 可 以 查询 HTTP 连接 的 目的 IP 地 址 ， 并 以 此 来 判断 客户 端的 目标 网 站 。 
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比方 说 ， 托 管 者 把 IP 地 址 209.172.34.3 分 配给 www.joes-hardware.com， 把 IP 地 址 
209.172.34.4 分 配给 www.marys-antiqgues.com， 把 这 两 个 卫 地 址 都 绑 定 到 同一 个 物 
理 服 务 器 上 。Web 服务 器 就 能 使 用 目的 IP 地 址 来 识别 用 户 请 求 的 是 哪个 虚拟 站 点 
T., SILE 18-4。 


° 客户 端 A 获取 http://www.joes-hardware.com/index.html。 

° 客户 端 A 查询 www.joes-hardware.com 的 IP 地址 ， 得 到 209.172.34.3。 

。 客户 端 A 打开 到 共享 服务 器 的 TCP 连接 ， 目 的 地 址 是 209.172.34.3。 

° 客户 端 A 发 送 请 求 ， 内 容 为 GET /index.html HTTP/1.0。 

° 在 Web 服务 器 提供 响应 之 前 ， 它 注意 到 实际 的 目的 IP HBH: (209.172.34.3), ， 判 
断 出 这 是 Joe 的 五 金 网 站 的 虚拟 IP 地 址 ， 就 根据 子 目录 /joe 来 完成 请 求 。 返 回 
的 是 文件 /joe/index.html。 





1 Ds 
www.voting-info.gov- 209.172.34.2 ro eme 目的 下 地 址 H K | 
www.joes-hardware.com- 209.172.34.3 j e ied her voting 


www.marys-antiques.c om= 209.172.34.4 209.172.34.3 [joe 
209.172.34.4 /mary 





Y 
209.172.34.3 


Ll» FE 一 一 三 少 

















18-4 EM IP 的 主机 托管 
类 似 地 ， 如 果 客 户 端 B 请 求 http://www.marys-antiques.com/index.html。 


° 客户 端 B 查询 www.marys-antiques.com 的 IP 地 址 , 得 到 209.172.34.4。 

。 客户 端 B 打开 到 Web 服务 器 的 TCP 连接 ， 目 的 地 址 是 209.172.34.4。 

° 客户 端 B 发 送 请 求 ， 内 容 是 GET /index.html HTTP/1.0, 

° Web 服务 器 判断 出 209.172.34.4 是 Mary 的 网 站 ， 根 据 /mary 目录 来 完成 请 求 ， 
返回 的 是 文件 /mary/index.html。 


对 大 的 托管 者 来 说 ， 虚 拟 IP 的 主机 托管 能 够 工作 ， 但 它 会 带 来 一 些 麻 烦 。 





。 在 计算 机 系统 上 能 绑 定 的 虚拟 IP 地 址 通常 是 有 限制 的 。 想 在 共享 的 服务 器 上 托 
管 成 百 上 千 的 虚拟 站 点 的 服务 商 不 一 定 能 实现 愿望 。 

° IP 地 址 是 稀缺 资源 。 有 很 多 虚拟 站 点 的 托管 者 不 一 定 能 为 被 托管 的 网 站 获取 足够 
多 的 IP 地址。 
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。 托管 者 通过 复制 服务 器 来 增加 容量 时 ，IP 地 址 短缺 的 问题 就 更 严重 了 。 随 负载 均 
衡 体系 的 不 同 ， 可 能 会 要 求 每 个 复制 的 服务 器 上 有 不 同 的 虚拟 IP 地址， 因此 IP 
地 址 的 需求 量 可 能 会 随 复制 服务 器 的 数量 而 倍增 。 








尽管 虚拟 IP 的 主机 托管 存在 消耗 地 址 的 问题 ， 但 它 仍然 得 到 了 广泛 的 运用 。 


4. 通过 Host 首 部 进行 虚拟 主机 托管 

为 了 避免 过 度 的 地 址 消耗 和 虚拟 IP 地 址 的 限制 ， 我 们 希望 在 虚拟 站 点 间 共 享 同一 个 
IP 地 址 ， 且 仍 能 区 分 站 点 。 但 正如 我 们 看 到 的 那样 ， 因 为 大 多 数 浏览 器 只 是 把 URL 
的 路 径 发 给 服务 器 ， 关 键 的 虚拟 主机 名 信息 被 其 丢掉 了 。 








为 了 解决 这 个 问题 ， 浏 览 器 和 服务 器 的 实现 者 扩展 了 HTTP， 把 原始 的 主机 名 提供 
给 服务 器 。 不 过 ， 浏 览 器 不 能 只 发 送 完 整 的 URL， 因 为 这 会 使 许多 只 能 接收 路 径 的 
服务 器 无 法 工作 。 替 代 的 方法 是 ， 把 主机 名 (和 端口 号 ) 放 在 所 有 请 求 的 Host 扩 
展 首部 中 传送 。 

在 图 18-5 中 ， 客 户 端 A 和 客户 端 B 都 发 送 了 携带 有 要 访问 的 原始 主机 名 的 Host Ë 
部 。 当 服务 器 收 到 对 /index.html 的 请 求 时 ， 可 以 通过 Host 首部 来 判断 要 使 用 哪个 
资源 。 











(A 获取 http://www.joes-hardware.com/index.html) 














GET /index.html HTTP/1.1 www.voting-info.gov 
User-agent: SuperBrowser v1.3 www.joes-hardware.com 
Host: www.joes-hardware.com | www.marys-antiques.com 








客户 端 A 特 网 


' | /voting /mary/ joe I | 


客户 端 B — — ——: 
ier inde de 人 33oo | ”HTTP 的 Host 首 部 携带 了 在 通常 的 请 求 中 丢失 的 
Host: marys-antiques.com 主机 名 信息 ， 人 允许 通过 主机 名 进行 虚拟 主机 托管 。 


(B 获 取 http:Wwww.marys-antiques.comyindex.htm]) 









































图 18-5 用 Host 首部 区 分 请 求 的 虚拟 主机 


Host 首部 最 早 是 在 HTTP/1.0+ 中 引入 的 ， 它 是 开发 商 实现 的 HTTP/1.0 的 扩展 超 
集 。 遵 循 HTTP/1.1 标准 则 必须 支持 Host 首部 。 绝 大 多 数 现代 浏览 器 和 服务 器 都 支 
持 Host 首部 ， 但 仍 有 一 些 客户 端 和 服务 器 (以 及 网 络 机 器 人 ) 不 支持 它 。 
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18.2.8 HTTP/1.1 的 Host 首 部 


Host 首部 是 HTTP/1.1 的 请 求 首部 ， 定 义 在 RFC 2068 中 。 由 于 虚拟 服务 器 的 流行 ， 
绝 大 多 数 HTTP 客户 端 (即使 是 不 遵循 HTTP/1.1 的 客户 端 ) ， 都 实现 了 Host 首部 。 


1. 语法 与 用 法 


Host 首部 描述 了 所 请 求 的 资源 所 在 的 因特网 主机 和 端口 号 ， 和 原始 的 URL 中 得 到 
的 一 样 : 





Host = "Host" mim host [ ":" port ] 
但 要 注意 以 下 问题 。 


。 如 果 Host 首部 不 包含 端口 ， 就 使 用 地 址 方案 中 默认 的 端口 。 

° 如 果 URL 中 包含 IP 地 址 ，Host 首部 就 应 当 包 含 同 样 的 地 址 。 

° 如 果 URL 中 包含 主机 名 ，Host 首部 就 必须 包含 同样 的 名 字 。 

。 AUR URL 中 包含 主机 名 ，Host 首部 就 不 应 当 包 含 URL 中 这 个 主机 名 对 应 的 IP 
地 址 ， 因 为 这 样 会 扰乱 虚拟 主机 托管 服务 器 的 工作 ， 它 在 同一 个 IP 地 址 上 堆 释 
了 很 多 虚拟 站 点 。 

° 如 果 URL 中 包含 主机 名 ，Host 首部 就 不 应 当 包 含 这 个 主机 名 的 其 他 别名 ， 因 为 
这 样 也 会 扰乱 虚拟 主机 托管 服务 器 的 工作 。 

° 如 果 客 户 端 显 式 地 使 用 代理 服务 器 ， 客 户 端 就 必须 把 原始 服务 器 ， 而 不 是 代理 服 
务 器 的 名 字 和 端口 放 在 Host 首部 中 。 以 往 ， 若 干 个 Web 客户 端 在 启用 客户 端 代 

理 设置 时 ， 错 误 地 把 发 出 的 Host 首部 设置 成 代理 的 主机 名 。 这 种 错误 行为 会 使 
代理 和 原始 服务 器 都 无 法 正常 处 理 请 求 。 

* Web 客户 端 必 须 在 所 有 请 求 报 文中 包含 Host 首部 。 

° Web 代理 必须 在 转发 请 求 报 文 之 前 ， 添 加 Host 首部 。 

e HTTP/1.1 的 Web 服务 器 必须 用 400 状态 码 来 响应 所 有 缺少 Host 首部 字段 的 
HTTP/1.1 请 求 报 文 。 

















下 面 是 一 段 简 单 的 HTTP 请 求 报 文 ， 用 于 获取 www.joes-hardware.com 的 主页 ， 其 
中 带 有 必需 的 Host 首部 字段 : 


GET http://www.joes-hardware.com/index.html HTTP/1.0 

Connection: Keep-Alive 

User-Agent: Mozilla/4.51 [en] (X11; U; IRIX 6.2 IP22) 

Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/ 
png, */* 

Accept-Encoding: gzip 

Accept-Language: en 

Host: www.joes-hardware.com 
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2. 缺失 Host 首 部 

有 少量 在 用 的 老式 浏览 器 不 会 发 送 Host 首部 。 如 果 某 个 虚拟 主机 托管 服务 器 使 用 
Host 首部 来 判断 所 服务 的 是 哪个 网 站 ， 而 报 文中 没有 出 现 Host 首部 的 话 ， 那 它 可 
能 会 把 用 户 导 向 某 个 默认 的 Web Xu 《例如 网 络 服务 提供 商 的 Web 页 面 )， 也 可 能 
返回 一 个 错误 页 面 建 议 用 户 升 级 浏 览 器 


3. 解释 Host 首 部 

对 于 没有 进行 虚拟 主机 托管 ， 而 且 不 允许 资源 随 请 求 主机 的 不 同 而 变化 的 原始 服务 
器 来 说 ， 可 以 忽略 Host 首部 字段 的 值 。 但 资源 会 随 主机 名 的 不 同 而 变化 的 原始 服 
务 器 ， 都 必须 在 一 条 HTTP/1.1 请 求 判 断 其 所 请 求 的 资源 时 使 用 下 列 规则 。 








(1) 如 果 HTTP 请 求 报 文中 的 URL 是 绝对 的 (也 就 是 说 ， 包 含 方 案 和 主机 部 分 )， 
就 忽略 Host 首部 的 值 。 

(2) 如 果 HTTP 请 求 报 文中 的 URL 没有 主机 部 分 ， 而 该 请 求 带 有 Host 首部 ， 则 主 
机 /端口 的 值 就 从 Host 首部 中 取 。 

(3) 如 果 通 过 第 (1) PRE (2) 步 都 无 法 获得 有 效 的 主机 ， 就 向 客户 端 返回 400 
Bad Request 响应 。 


4. Host 首 部 与 代理 


基 些 版 本 的 浏览 器 发 送 的 Host 首部 不 正确 ， 尤 其 是 配置 使 用 代理 的 时 候 。 例 如 ， 
配置 使 用 代理 时 ， 一 些 老 版 本 的 Apple fI PointCast 客户 端 会 错误 地 把 代理 的 名 字 ， 
而 不 是 原始 服务 器 的 名 字 放 在 Host 首部 里 发 送 。 


18.3 使 网 站 更 可 靠 

在 下 面 列 出 的 这 些 时 间 段 内 ， 网 站 通常 是 无 法 运作 的 。 

° 服务 器 宕 机 的 时 候 。 

° 交通 拥堵 : 突然 间 很 多 人 都 要 看 基 个 特别 的 新 闻 广 播 或 涌 向 基 个 大 甩卖 网 店 。 突 
然 的 拥堵 可 以 使 Web 服务 器 过 载 ， 降 低 其 响应 速度 ， 其 至 使 它 彻底 停机 。 

° 网 络 中 断 或 掉 线 。 


本 市 会 展示 一 些 预 判 和 处 理 这 些 常 见 问 题 的 方法 。 


18.3.1 镜像 的 服务 器 集群 


服务 器 集群 是 一 排 配置 相同 的 Web 服务 器 ， 互 相 可 以 替换 。 每 个 服务 器 上 的 内 容 可 
以 通过 镜像 复制 ， 这 样 当 某 个 服务 器 出 问题 的 时 候 ， 其 他 的 可 以 顶 上 。 
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镜像 的 服务 器 常常 组 成 层次 化 的 关系 。 某 个 服务 器 可 能 充当 “内 容 权 威 ”一 一 它 含 
有 原始 内 容 (可 能 就 是 内 容 作 者 上 传 的 那个 服务 器 )。 这 个 服务 器 称 为 主 原始 服务 器 
(master origin server) 。 从 主 原始 服务 器 接收 内 容 的 镜像 服务 器 称 为 复制 原始 服务 器 
(replica origin server)。 一 种 简单 的 部 署 服 务 器 集群 的 方法 是 用 网 络 交 换 机 把 请 求 分 
发 给 服务 器 。 托 管 在 服务 器 上 的 每 个 网 站 的 IP 地 址 就 设置 为 交换 机 的 IP 地 址 。 


在 图 18-6 显示 的 镜像 服务 器 集群 中 ， 主 原始 服务 器 负责 把 内 容 发 送 给 复制 原始 服务 
器 。 对 集群 外 部 来 说 ， 内 容 所 在 的 IP 地 址 就 是 交换 机 的 IP 地 址 。 交 换 机 负责 把 请 
求 发 送 到 服务 器 上去。 










客户 端 
ü 复制 原始 服务 器 
客户 端 
因特网 ==] 
Ll 交换 机 
客户 端 


主 原始 服务 器 





复制 原始 服务 器 








18-6 ”镜像 的 服务 器 集群 


镜像 Web 服务 器 可 以 在 不 同 的 地 点 包含 同样 内 容 的 副本 。 图 18-7 展示 了 A 个 镜像 
服务 器 ， 其 中 主 服务 器 在 芝加哥 ， 复 制服 务 器 在 纽约 、 迈 阿 密 和 小 石城 。 主 服务 器 
为 芝加哥 地 区 的 客户 端 服务 ， 并 肩负 把 内 容 传 播 给 复制 服务 器 的 任务 。 

















芝加哥 (总 部 ) 纽约 
主 原始 服务 器 复制 原始 服务 器 
因特网 
小 石城 迈阿密 
复制 原始 服务 器 复制 原始 服务 器 








18-7 分 散 的 镜像 服务 器 
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在 图 18-7 的 场景 中 ， 有 以 下 两 种 方法 把 客户 端的 请 求 导 向 特定 的 服务 器 。 








° HTTP 重 定向 
该 内 容 的 URL 会 解析 到 主 服务 器 的 IP 地 址 ， 然 后 它 会 发 送 重 定向 到 复制 服务 器 。 


° DNS 重 定向 
该 内 容 的 URL 会 解析 到 4 个 IP 地址 ，DNS 服务 器 可 以 选择 发 送 给 客户 端的 
IP 地 址 。 


请 参见 第 20 章 ， 以 获取 详细 信息 。 


18.3.2 ”内 容 分 发 网 络 
简单 地 说 ， 内 容 分 发 网 络 (CDN) 就 是 对 特定 内 容 进 行 分 发 的 专门 网 络 。 这 个 网 络 
中 的 节点 可 以 是 Web 服务 器 、 反 向 代理 或 缓存 。 


18.3.3 ”CDN 中 的 反 向 代理 缓存 

在 图 18-6 和 图 18-7 中 ， 复 制 原始 服务 器 可 以 用 反 向 代理 (也 称 为 替代 物 ) 缓存 来 
代 赫 。 反 向 代理 缓存 可 以 像 镜像 服务 器 一 样 接受 服务 器 请 求 。 它 们 代表 原始 服务 器 
中 的 一 个 特定 集合 来 接收 服务 器 请 求 。( 根 据 内 容 所 在 的 IP 地址 的 广告 方式 ， 这 是 
有 可 能 的 ， 原 始 服务 器 和 反 向 代理 缓存 之 间 通 常 有 协作 关系 ， 到 特定 的 原始 服务 器 
的 请 求 就 由 反 向 代理 缓存 来 接收 。) 


反 向 代理 和 镜像 服务 器 之 间 的 区 别 在 于 反 向 代理 通常 是 需求 驱动 的 。 它 们 不 会 保存 
原始 服务 器 的 全 部 内 容 副 本 ， 它 们 只 保存 客户 端 请 求 的 那 部 分 内 容 。 内 容 在 其 高 速 
缓存 中 的 分 布 情况 取决 于 它们 收 到 的 请 求 ， 原 始 服务 器 不 负责 更 新 它们 的 内 容 。 为 
了 更 容易 地 访问 “热点 ”内 容 (就 是 高 请 求 率 的 内 容 )， 有 些 反 向 代理 具有 “ 预 取 ” 
特性 ， 可 以 在 用 户 请 求 之 前 就 从 服务 器 上 载 入 内 容 。 


CDN 中 带 有 反 向 代理 时 ， 可 能 会 由 于 存在 代理 的 层次 关系 而 增加 其 复杂 性 。 


















































18.3.4 CDN 中 的 代理 缓存 

代理 缓存 也 可 以 部 署 在 类 似 图 18-6 和 图 18-7 的 环境 中 。 与 反 向 代理 不 同 ， 传 统 的 
代理 缓存 能 收 到 发 往 任 何 Web 服务 器 的 请 求 。( 在 代理 缓存 与 原始 服务 器 之 间 不 需 
要 有 任何 工作 关系 或 IP 地 址 约定 。) 但 是 与 反 向 代理 比 起 来 ， 代 理 缓存 的 内 容 一 般 
都 是 按 需 驱 动 的 ， 不 能 指望 它 是 对 原始 服务 器 内 容 的 精确 复制 。 某 些 代理 缓存 也 可 
以 预先 载 入 热点 内 容 。 
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按 需 驱动 的 代理 缓存 可 以 部 署 在 其 他 环境 中 一 一 尤其 是 拦截 环境 ， 在 这 种 情况 下 ，2 层 
或 3 层 设备 (交换 机 或 路 由 器 ) 会 拦截 Web 流量 并 将 其 发 送 给 代理 缓存 (参见 图 18-8), 











代理 缓存 


客户 端 











因特网 和 大 量 
的 原始 服务 器 








客户 器 











图 18-8 客户 端的 请 求 被 交换 机 拦截 并 发 给 代理 缓存 


拦截 环境 依赖 于 在 客户 端 和 服务 器 之 间 设 置 网 络 的 能 力 ， 这 样 ， 所 有 合适 的 HTTP 
请 求 才能 真正 发 送 到 缓存 中 去 。( 参 见 第 20 章 )。 根 据 收 到 的 请 求 ， 将 内 容 分 布 在 组 
存 中 。 


18.4 让 网 站 更 快 

前 面 一 节 提 到 的 很 多 技术 也 能 帮助 网 站 更 快 地 加 载 。 服 务 器 集群 和 分 布 式 代理 缓存 
或 反 向 代理 服务 器 分 散 了 网 络 流量 ， 可 以 避免 拥塞 。 分 发 内 容 使 之 更 靠近 终端 用 户 ， 
这 样 从 服务 器 到 客户 端的 传输 时 间 就 更 短 了 。 请 求 和 响应 穿 过 因特网 ， 在 客户 端 和 
服务 器 间 传 输 的 方式 是 影响 资源 访问 速度 最 主要 的 因素 。 重 定向 方法 的 详细 内 容 参 
见 第 20 章 。 








加 速 网 站 访问 的 另 一 种 方法 是 对 内 容 进 行 编码 以 便 更 快 地 传输 。 比 如 ， 对 内 容 进 行 
压缩 ， 但 前 提 是 接收 的 客户 端 能 够 把 内 容 解 压缩 。 请 参见 第 15 章 了 解 更 多 细 市 。 


18.5 更 多 信息 


参阅 第 3 部 分 以 了 解 如 何 使 Web 站 点 安全 。 下 面 的 因特网 草案 和 文档 提供 了 Web 
虚拟 主机 服务 和 内 容 分 发 的 更 多 细节 。 








* http://www ietf.org/rfc/rfc3040.txt 
RFC 3040, "Internet Web Replication and Caching Taxonomy”(“ 因特网 Web 复 
制 和 缓存 分 类 法 ”)， 这 份 文档 是 关于 Web 复制 与 缓存 应 用 术语 的 参考 文献 。 
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http://search.ietf.org/internet-drafts/draft-ietf-cdi-request-routing-reqs-00. 


txt 


“Request-Routing Requirements for Content Internetworking”( 内容 网 际 互 连 的 


请 求 路 由 需求 ”)。 





Apache: The Definitive Guide! (《Apache 权威 指南 》) 
Ben Laurie 和 Peter Laurie 著 ， O'Reilly & Associates 公司 出 版 。 这 本 3 





运行 开源 的 Apache Web 服务 器 。 





注 1 











: 本 书 影 印 版 由 人 民 邮 电 出 版 社 出 版 。( 编 者 注 





m 
— 

















讲述 如 何 
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怎样 创建 Web 页 面 并 放 到 Web 服务 器 上 去 呢 ? 在 Web 发 展 的 “蛮荒 ”时 代 (比如 
1995 年 )， 可 能 要 在 文本 编辑 器 中 手工 拼凑 HTML, JH FTP 手动 把 内 容 上 传 到 Web 
服务 器 。 这 个 过 程 很 痛苦 ， 很 难 与 同事 配合 ， 也 不 是 特别 安全 。 


如 今 的 发 布 工 具 使 得 创建 、 发 布 以 及 管理 Web 内 容 方 便 了 许多 。 今 天 ， 用 户 可 以 交 
互 式 地 编辑 Web 内 容 ， 在 屏幕 上 看 到 它 实际 呈现 的 样子 ， 轻 轻 点 击 一 下 就 可 以 把 内 
容 发 布 到 服务 器 ， 还 能 得 到 所 有 文件 变化 的 通知 。 


许多 支持 远程 发 布 内 容 的 工具 都 使 用 了 扩展 的 HTTP 协议 。 本 章 将 讲解 以 HTTP 为 
基础 的 两 种 重要 的 Web 内 容 发 布 技术 : FrontPage 和 DAYV。 


19.1 FrontPage 为 支持 发 布 而 做 的 服务 器 扩展 


FrontPage (FP) 是 微软 公司 提供 的 一 种 通用 Web 写作 和 发 布 工 具 包 。FrontPage 的 
原始 创意 (FrontPage 1.0) 是 由 维 美 尔 (Vermeer) 技术 公司 在 1994 年 构思 的 ， 它 
是 首 个 把 网 站 管理 和 创建 整合 进 一 个 统一 工具 的 产品 。 微 软 公司 1996 年 收购 了 维 美 
尔 公 司 ， 发 行 了 FrontPage 1.1。 最 新 的 版 本 一 一 FrontPage 2002 版 ， 是 这 条 产品 线 
上 的 第 六 代 ， 是 微软 办 公 和 套件 的 核心 组 成 部 分 。 












































19.1.1 FrontPage 服 务 器 扩展 

作为 “随处 发 布 ” 战 略 的 一 部 分 ， 微 软 公司 发 布 了 一 系列 服务 器 端 软 件 ， 称 为 
“FrontPage 服务 器 扩展 ”，(FPSE)。 这 些 服务 器 端 组 件 和 Web 服务 器 集成 在 一 起 ， 
在 网 站 和 运行 FrontPage 的 客户 端 (以 及 其 他 支持 这 些 扩展 的 客户 端 ) 之 间 提 供 了 
必要 的 转 接 工 作 。 


我 们 主要 关注 FrontPage 客户 端 和 FPSE 之 间 的 发 布 协议 。 该 协议 是 对 HTTP 核心 
服务 进行 扩展 而 无 需 改变 HTTP 语义 的 一 个 设计 范例 。 











FrontPage 的 发 布 协议 在 HTTP 的 POST 请 求 之 上 实现 了 一 个 RPC (Remote 
Procedure Call， 远 程 过 程 调 用 ) 层 。 它 允许 FrontPage 客户 端 向 服务 器 发 送 命 令 来 
更 新 网 站 上 的 文档 、 进 行 搜索 以 及 在 多 个 Web 作者 之 间 进 行 协作 ， 等 等 。 图 19-1 
给 出 了 这 个 通信 过 程 的 概貌 。 

Web 服务 器 看 到 以 FPSE (在 非 微 软 HS 服务 器 上 就 以 一 组 CGI 程序 的 方式 实现 ) 
为 接收 地 址 的 POST 请 求 ， 就 对 其 进行 相应 的 引导 。 只 要 中 间 的 防火 墙 和 代理 服务 
器 都 配置 为 允许 使 用 POST 方法 ，FrontPage 就 能 与 服务 器 持续 通信 。 
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HTTP 请 求 报 文 
包含 命令 与 URL www.joes-hardware.com 


HTTP | > | 


HTTP uama sa i 














FrontPage% Ji V i. 
FrontPage, Ë : 
MS Word, Excel, 等 等 CGI ISAPI 
FrontPage 服 务 : 








' 器 扩展 (FPSE) ， 

















图 19-1 FrontPage 发 布 系统 体系 结构 


19.1.2 ”FrontPage 术 语 表 
在 我 们 深入 研究 FPSE 定义 的 RPC 层 之 前 ， 先 来 了 解 一 下 其 常用 术语 。 





° 虚拟 服务 器 
在 同一 服务 器 上 运行 的 多 个 网 站 之 一 ， 每 个 都 有 唯一 的 域名 和 IP 地 址 。 本 质 上 
说 ， 虚 拟 服务 器 允许 在 单一 的 Web 服务 器 上 托管 多 个 网 站 ， 在 浏览 器 看 来 每 个 
网 站 都 像 是 由 它 自己 专门 的 Web 服务 器 托管 的 一 样 。 支 持 虚拟 服务 器 的 Web Ak 
务 器 称 为 多 路 托管 (multi-hosting) Web 服务 器 。 配 置 有 多 个 IP 地 址 的 机 器 称 为 
多 宿主 (multi-homed) 服务 器 (参阅 18.2 节 以 获取 更 多 信息 )。 





。 根 Web 
Web 服务 器 默认 的 顶层 内 容 目 录 ， 或 者 是 在 多 路 托管 环境 下 ， 虚 拟 Web 服务 器 
的 顶层 内 容 目 录 。 要 访问 根 Web， 只 需 指 定 该 服务 器 的 URL， 而 不 需要 指定 页 
面 名 称 。 每 个 Web 服务 器 只 能 有 一 个 根 Web。 





° + Web 
TR Web 的 已 命名 子 目 录 或 另 一 个 完全 由 FPSE 扩展 的 子 Web, + Web 可 以 是 完 
全 独立 的 实体 ， 能 够 指定 自己 的 管理 和 写作 权限 。 此 外 ， 子 Web 还 能 提供 方法 
(比如 搜索 ) 的 作用 范围 。 





19.1.3 FrontPage 的 RPC 协 议 


FrontPage 客户 端 与 FPSE 使 用 专用 的 RPC 协议 来 通信 。 该 协议 构建 在 HTTP 的 
POST 方法 之 上 ， 它 把 RPC 的 方法 及 其 相关 的 变量 舱 入 在 POST 请 求 的 主体 中 。 
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在 开始 处 理 之 前 ， 客 户 端 需要 知道 服务 器 上 目标 程序 (FPSE 包 中 能 够 执行 这 些 
POST 请 求 的 相关 部 分 ) 的 位 置 和 名 称 。 接 下 来 它 会 发 送 一 个 特殊 的 GET 请 求 (Z 
见 图 19-2)。 



































HTTP 请 求 报 文 
包含 命令 和 URL 
GET / vti inf.html HTTP/1.1 
Date: Sat, 12 Aug 2000 20:31:24 
User-agent: Mozilla/2.0 (compatibles MS FrontPage 4.0) 
Host: taskserver:80 
Content: lengths o g woes hardware com 
p t. te | 
因特网 Í | i 
y T j 
FrontPage ~ A A 
HIM : H 
客户 端 CGI ISAPI 
'FrontPage 服 务 ; 
IT JR(EPSE) ' 











19-2 DAER 


得 到 返回 的 文件 之 后 ，FrontPage % P'9m ix HOW], H FPShtmlScriptUrl, 
FPAuthorScriptUrl 以 及 FPAdminScriptUrl 相关 的 值 。 通 常 ， 这 些 值 看 起 来 是 
这 样 的 : 














FPShtmlScriptUrl-" vti bin/ vti rpc/shtml.dll" 
FPAuthorScriptUrl-" vti bin/ vti aut/author.dll" 
FPAdminScriptUrl-" vti bin/ vti adm/admin.dll" 


FPShtmlScriptUrl 告诉 客户 端 要 执行 “浏览 时 ”命令 (例如 ， 获 取 FPSE 的 版 本 
号 ) 时 应 向 哪里 POST 请 求 。 


FPAuthorScriptUrl 告诉 客户 端 要 执行 “写作 时 ”命令 时 应 向 哪里 POST 请 求 。 
类 似 地 ，FPAGminscriptUrl 告诉 FrontPage 向 哪里 发 送 管理 操作 的 POST 请 求 。 


现在 我 们 已 知道 这 些 程序 所 在 的 位 置 ， 可 以 发 出 请 求 了 。 
请 求 


POST 请 求 的 主体 包含 RPC 命令 ， 形 式 是 method=<command> 及 任何 需要 的 参数 。 
例如 ， 请 求 文档 列表 的 RPC 报 文 如 下 : 


POST / vti bin/ vti aut/author.dll HTTP/1.1 
Date: Sat, 12 Aug 2000 20:32:54 GMT 








User-Agent: MSFrontPage/4.0 


«BODY» 
method-list«documents23a42260$2e2$2e3717&service$5fname-&listHiddenDoc 
s-false&listExplorerDocs-false&listRecurse-false&listFiles-true&listFo 
lders-true&listLinkInfo-true&listIncludeParent-true&listDerived-false 
&listBorders-false&listChildWebs-true&initialUrl-&folderList-£$5b$3bTW$ 
7c124«Aug«2000420$3a33$3a04«$2d0000$5d 


POST 方法 的 主体 中 含有 发 送 给 FPSE 的 RPC 命令 。 与 CGI 程序 一 样 ， 方 法 中 的 空格 
被 编码 为 加 号 (+) 字符 。 所 有 其 他 非 字 母 数字 的 字符 都 被 编码 为 sXX 格 式 ，XX 表 
示 该 字符 的 ASCII 码 。 根 据 这 种 记号 方式 ， 更 容易 辨识 的 主体 版 本 如 下 所 示 : 
method-list«documents:4.0.1.3717 
S D ¿së 


&listExplorerDocs=false 


其 中 茶 些 元 素 的 含义 如 下 所 述 

° service name 
方法 应 该 在 该 URL 表示 的 网 站 上 执行 。 必 须 是 已 有 文件 夹 或 者 已 有 文件 夹 的 下 
层 文件 夹 。 





e listHiddenDocs 
如 果 值 为 true， 就 显示 网 站 中 隐藏 的 文档 。 所 谓 “ 隐 藏 ”是 指 其 URL BJP 4 Ë 
分 以 “ ”开头 。 





e listExploreDocs 


如 果 值 为 tue， 就 列 出 任务 列表 。 


2. 响应 


大 多 数 RPC 协议 方法 都 有 返回 值 。 大 多 数 和 常见 的 返回 值 都 用 来 表示 方法 成 功 和 各 种 
圭 误 。 有 些 方法 还 有 第 三 种 类 别 的 返回 值 ， 称 为 “采样 返回 码 ”。FrontPage 会 对 这 
些 代 码 进行 适当 的 解释 ， 为 用 户 提供 准确 的 反馈 。 


继续 讨论 前 面 的 例子 ，FPSE 处 理 这 个 1istdocuments 请 求 并 返回 必须 的 信息 。 示 
例 响 应 如 下 : 


HTTP/1.1 200 OK 

Server: Microsoft-IIS/5.0 

Date: Sat, 12 Aug 2000 22:49:50 GMT 
Content-type: application/x-vermeer-rpc 
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X-FrontPage-User-Name: IUSER MINSTAR 


«html»«head»«title»RPC packet«/title»«/head» 
«body» 
«p»method-list documents: 4.0.2.3717 
«p»document list- 
«uls 

«li»document name-help.gif 
«Nul» 


可 以 从 响应 中 看 到 ，Web 服务 器 上 可 用 文档 的 列表 返回 给 了 FrontPage 客户 端 。 在 
微软 公司 的 网 站 上 可 以 找到 各 种 命令 和 响应 的 完整 列表 。 


19.1.4 FrontPage 的 安全 模型 
任何 直接 访问 Web 服务 器 内 容 的 发 布 系统 都 要 非常 注意 其 行为 的 潜在 安全 影响 。 
FPSE 在 极 大 程度 上 是 依赖 Web 服务 器 来 提供 安全 性 的 。 


FPSE 安全 模型 定义 了 3 种 用 户 : 管理 员 、 作 者 以 及 浏览 者 ， 其 中 管理 员 拥 有 完全 
控制 权 。 所 有 权限 都 是 累积 的 ， 也 就 是 说 ， 所 有 的 管理 员 都 能 编写 和 浏览 FrontPage 
的 网 站 。 类 似 地 ， 所 有 作者 都 有 浏览 权限 。 


对 于 给 定 的 由 FPSE 扩展 的 网 站 ， 管 理 员 、 作 者 以 及 浏览 者 的 列表 都 要 定义 好 。 所 
有 的 子 Web 可 以 从 根 Web 继承 权限 ， 也 可 以 自行 定义 。 对 于 非 UIS 的 Web 服务 器 ， 
所 有 的 FPSE 程序 都 要 保存 在 标记 为 “可 执行 ”的 目录 中 (所 有 其 他 CGI 程序 也 都 
有 同样 的 限制 )。Fpsrvadm，FrontPage 的 服务 器 管理 员 实 用 工具 ， 可 以 用 来 进行 这 
种 工作 。 在 IIS 服务 器 上 ， 则 可 用 Windows 操作 系统 自身 集成 的 安全 模型 。 


fE3E HS 服务 器 上 ，Web 服务 器 的 访问 控制 机 制 负责 指定 能 够 访问 指定 程序 的 用 户 。 
在 Apache FU NCSA 的 Web 服务 器 上 ， 访问 控制 文件 名 为 .htaccess; 在 Netscape JR 
务 器 上 ， 文 件 名 是 .nsconfig。 访 问 控 制 文件 将 用 户 、 用 户 组 以 及 IP 地 址 与 不 同 级 
别 的 权限 关联 起 来 : GET 是 读 权限 ，POST 是 写 权 限 ， 等 等 。 例 如 ， 为 了 使 用 户 在 
Apache HJ Web 服务 器 上 具有 作者 权限 ，.htaccess 文件 应 当 人 允许 该 用 户 对 author.exe 
进行 POST。 这 些 访问 规范 文件 常常 是 以 目录 为 单位 来 定义 的 ， 这 为 权限 定义 提供 
了 极 大 的 灵活 性 。 




















在 VIS 服务 器 上 ， 权 限 是 通过 给 定 根 Web 目录 或 子 Web 的 根 目录 上 的 ACL (Access 
Control List， 访 问 控 制 列表 ) 来 制定 的 。 当 IS 收 到 请 求 时 ， 首 先 登 录 ， 并 模拟 用 
户 ， 接 着 发 送 请 求 到 上 述 三 个 DLL (Dynamic Link Library， 动 态 链 接 库 ) 之 一 。 收 
到 请 求 的 DLL 根据 目标 文件 夹 上 定义 的 ACL 检查 所 扮演 用 户 的 证 书 。 如 果 检 查 通 
过 ， 请 求 的 操作 就 由 扩展 DLL 来 执行 。 否 则 ， 就 向 客户 端 发 回 “permission denied" 
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(没有 权限 ) 报 文 。 由 于 IIS 和 Windows 操作 系统 的 安全 管理 紧密 集成 在 一 起 ， 所 
以 可 以 使 用 用 户 管理 器 进行 细 粒 度 的 控制 。 


尽管 有 着 精密 的 安全 模型 ， 启 用 FPSE 还 是 背负 了 带 来 显著 安全 风险 的 恶名 。 在 多 
数 情况 下 ， 这 是 由 于 网 站 管理 员 的 粗心 大 意 引 起 的 。 然 而 ， 早 期 版 本 的 FPSE 的 确 
有 严重 的 安全 漏洞 ， 从 而 引起 了 这 种 安全 风险 的 担忧 。 完 整地 实现 严密 的 安全 模型 
困难 重重 ， 也 加 剧 了 这 种 担忧 。 


19.2 WebDAV 与 协作 写作 


WebDAV (Web Distributed Authoring and Versioning, 分 布 式 写作 与 版 本 管理 ) 为 
Web 发 布 增添 了 新 的 内 容 一 一 协作 。 当 前 ， 最 常见 的 协作 实践 《电子 邮件 或 分 布 式 
文件 共享 ) 显然 没有 什么 技术 含量 。 这 种 实践 很 不 方便 还 容易 出 错 ， 而 且 几 乎 没有 
过 程控 制 。 请 考虑 运行 一 个 为 多 国 用 户 服 务 的 汽车 制造 商 的 多 语种 网 站 。 很 容易 看 
出 ， 它 非常 需要 安全 可 靠 的 带 有 发 布 原 语 和 协作 原 语 (比如 锁定 和 版 本 管理 等 ) 的 
健壮 系统 。 


WebDAV (作为 RFC 2518 发 表 ) 专注 于 对 HTTP 进行 扩展 ， 以 提供 协作 写作 的 适 
宜 平 台 。 目 前 是 在 IETF 的 组 织 下 ， 得 到 了 许多 厂商 的 支持 ， 包 括 Adobe. Apple, 
IBM. Microsoft, Netscape, Novell, Oracle 以 及 Xerox, 























19.2.1 WebDAV 的 方法 


WebDAV 定义 了 一 些 新 的 HTTP 方法 并 修改 了 其 他 一 些 HTTP 方法 的 操作 范围 。 
WebDAV 新 增 的 方法 如 下 所 述 。 








。 PROPFIND 
获取 资源 的 属性 。 
。 PROPPATCH 
在 一 个 或 多 个 资源 上 设 定 一 个 或 多 个 属性 。 
。 MKCOL 
创建 集合 。 
。 COPY 
从 指定 的 源 端 把 资源 或 者 资源 集合 复制 到 指定 的 目的 地 。 目 的 地 可 以 在 另 一 台 机 
器 上 。 
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° MOVE 
从 指定 的 源 端 把 资源 或 者 资源 集合 移动 到 指定 的 目的 地 。 目 的 地 可 以 在 另 一 台 
机 器 上 。 





。 LOCK 
锁定 一 个 或 多 个 资源 。 


* UNLOCK 
把 先前 锁定 的 资源 解锁 。 


WebDAV 修改 的 HTTP 方法 有 DELETE, PUT 以 及 OPTIONS。 本 章 稍 后 将 详细 
讨论 新 方法 和 修改 后 的 方法 。 


19.2.2 ”WebDAV 与 XML 

WebDAV 的 方法 通常 都 需要 在 请 求 和 响应 中 关联 大 量 的 信息 。HTTP 通常 用 报 文 首 
部 来 交换 这 类 信息 。 然 而 ， 只 在 首部 传输 必要 的 信息 已 经 暴露 了 一 些 局 限 性 ， 包 括 
难以 有 选择 地 对 请 求 中 的 多 个 资源 应 用 首部 信息 、 不 利于 表示 层次 结构 等 。 


WebDAV 借助 了 XML 解决 这 个 问题 ， 它 是 一 种 元 标记 语言 ， 提 供 了 描述 结构 化 数 
据 的 格式 。XML 为 WebDAV 提供 了 以 下 解决 方案 。 


。 对 那些 描述 数据 处 理 方式 的 指令 进行 格式 化 的 方法 。 
。 在 服务 器 上 对 复杂 的 响应 进行 格式 化 的 方法 。 

。 交换 与 所 处 理 的 集合 和 资源 有 关 的 定制 信息 的 方法 。 
。 承载 数据 自身 的 灵活 工具 。 

。 对 大 多 数 国际 化 问题 的 健壮 解决 方案 。 











习惯 上 会 把 XML 文档 里 引用 的 方案 定义 保存 在 一 个 DTD (Document Type Definition, 
文档 类 型 定义 ) 文件 中 。 因 此 ， 试 图 解释 XML 文档 时 ， 可 以 根据 其 中 的 DOCTYPE 
定义 项 得 到 和 这 份 XML 文档 相关 的 DTD 文件 名 。 











WebDAV 定义 了 一 个 显 式 的 XML 名 字 空 间 一 一 “DAV:”。 简 单 地 说 ，XML 的 名 字 
空间 就 是 元 素 或 属性 的 名 字 的 集合 。 名 字 空 间 限 定 了 先入 的 名 字 在 域内 必须 是 唯一 
的 ， 这 样 就 可 以 避免 名 字 冲 突 。 

WebDAV 规范 (也 就 是 RFC 2518)， 定 义 了 完整 的 XML 方案 。 预 定义 的 方案 允许 
解析 软件 不 必 读 取 DTD 文件 ， 而 是 根据 预定 义 的 XML 方案 来 解释 。 
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19.2.3 WebDAV 首 部 集 


WebDAV 的 确 引 入 了 一 些 HTTP 首部 来 增强 新 方法 的 功能 。 本 节 对 其 进行 了 简要 介 
绍 ， 请 从 RFC 2518 中 获取 更 多 信息 。 新 的 首部 如 下 所 示 。 


DAV 
用 于 了 解 服务 器 的 WebDAV REJ. WebDAV 支持 的 所 有 资源 在 响应 OPTIONS 
请 求 时 都 要 含有 此 首部 。 更 多 细节 参见 19.2.14 节 。 


DAV = "DAV" "." "j" [", " "2"] [";" 1#extend] 





Depth 
这 是 一 个 关键 元 素 ， 用 于 把 WebDAV 扩展 到 支持 含有 多 级 层次 关系 的 资源 组 。 
参见 19.2.10 节 以 获取 更 多 关于 集合 的 详细 解释 。 

Depth = "Depth" ":" ("O" | "1" | "infinity") 
我 们 来 看 一 个 简单 的 例子 。 假 设 有 个 目录 DIR_A， 其 中 有 文件 file_1.html 和 
file_2.html。 如 果 某 方法 设置 了 Depth:0， 此 方法 就 只 作用 到 目录 DIR. A B 
身 ， 如 果 设 置 了 pepth:1， 就 作用 到 目录 DIR. A 及 其 包含 的 文件 file_1.html 和 
file 2.html, 


Depth 首部 对 WebDAV 定义 的 许多 方法 进行 了 修饰 。 用 到 Depth 首部 的 方法 
有 : LOCK, COPY 以 及 MOVE, 








Destination 

定义 这 个 首部 是 用 来 辅助 COPY 或 MOVE 方法 标识 目标 URI 的 。 

Destination = "Destination" ":" absoluteURI 

If 

定义 的 唯一 一 个 状态 令 牌 是 锁定 令 牌 (参见 19.2.5 r), rf 首部 定义 了 一 组 条 
件 ， 如 果 这 些 条 件 都 取 值 为 非 ， 请 求 就 失败 。 类 似 COPY 和 PUT 等 方法 可 以 在 
IE 首部 中 指定 前 置 条 件 ， 使 其 有 条 件 地 适用 。 在 实践 中 ， 最 常见 的 需要 满足 的 
前 置 条 件 是 先 获得 锁 。 








If ="If"":" (1*No-tag-list | 1*Tagged-list) 
No-tag-list - List 

Tagged-list = Resource 1l*List 

Resource - Coded-URL 


List - "(" 1*(["Not"] (State-token | "[" entity-tag "]")) ")" 
State-token - Coded-URL 
Coded-URL = "<" absoluteURI ">" 


Lock-Token 


UNLOCK 方法 需要 用 这 个 首部 指定 要 删除 的 锁 。LOCK 方法 的 响应 中 也 有 
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Lock-Token 首部 ， 载 有 关于 锁定 令 牌 的 必须 信息 。 
Lock-Token ="Lock-Token"":"Coded-URL 


° Overwrite 
用 于 COPY fli MOVE 方法 ， 指 定 是 否 要 覆盖 目标 。 参 见 本 章 后 面 关 于 COPY 和 
MOVE 方法 的 详细 介绍 。 


Overwrite -"Overwrite"":" ("T" |"F") 


° Timeout 


客户 端 用 这 个 请 求 首 部 指定 要 求 锁定 的 超时 值 。 参 见 19.2.5 市 获取 更 多 信息 。 


TimeOut = "Timeout" ":" 1#TimeType 

TimeType = ("Second-" DAVTimeOutVal | "Infinite" | Other) 
DAVTimeOutVal = 1*digit 

Other = "Extend" field-value 





我 们 已 经 概述 了 WebDAV 的 意图 及 其 实现 ， 下 面 来 仔细 看 看 它 提 供 的 各 种 功能 。 


19.2.4 WebDAV 的 锁定 与 防止 履 写 
根据 定义 ， 协 作 要 有 不 止 一 个 人 在 给 定 的 文档 上 工作 。 图 19-3 展示 了 和 协作 相关 的 
固有 问题 。 


在 这 个 例子 中 ， 作 者 A # B 联合 编写 一 份 规范 。A 和 B 各 自 独立 地 对 文档 做 了 一 些 
修改 。A 把 更 新 的 文档 上 传 到 仓库 。 之 后 ，B 也 把 自己 的 版 本 提交 到 仓库 。 不 幸 的 
是 ， 由 于 B 压根 不 知道 A 的 修改 ， 他 没有 把 自己 的 版 本 与 A 的 版 本 进行 合并 ， 从 
而 导致 A 的 修改 丢失 。 


为 了 改善 这 种 问题 ，WebDAYV 支持 锁定 的 概念 。 但 单 靠 锁定 不 能 完全 解决 这 个 问 
题 ， 还 需要 版 本 管理 和 消息 传送 才能 提供 完整 的 解决 方案 。 


WebDAV 支持 两 种 类 型 的 锁 : 


° 对 资源 或 集合 的 独占 写 锁 ; 
。 对 资源 或 集合 的 共享 写 锁 。 


独占 写 锁 保 证 只 有 锁 的 拥有 者 有 写 权 限 。 这 种 锁 完全 消除 了 潜在 的 冲突 。 共 享 写 锁 
允许 多 个 人 在 某 个 给 定 的 文件 上 工作 。 这 种 锁定 机 制 在 多 名 作者 对 各 自 的 活动 都 知 
晓 的 环境 下 可 以 很 好 地 工作 。WebDAYV 通过 PROPFIND 方法 提供 了 属性 发 现 机 制 ， 
可 以 判断 对 锁定 的 支持 和 所 支持 的 锁定 类 型 。 
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图 19-8 ”丢失 更 新 问题 

WebDAV 中 有 两 个 新 方法 支持 锁定 机 制 : LOCK 和 UNLOCK, 

为 了 实现 锁定 ， 还 需要 有 一 种 识别 作者 的 机 制 。WebDAYV 采用 的 是 摘要 认证 (参见 
第 13 章 )。 

批准 锁定 时 ， 服 务 器 将 域内 唯一 的 令 牌 返回 给 客户 端 。 与 此 相关 的 规范 是 
opaquelocktoken 锁定 令 牌 URI 方案 。 当 客户 端 随后 要 执行 了 写 操作 时 ， 它 连接 到 


服务 器 并 完成 摘要 认证 步骤 。 一 旦 认证 完成 ，WebDAY 客户 端 就 发 出 带 有 锁定 令 牌 
的 PUT 请 求 。 这 样 ， 只 有 正确 的 用 户 加 上 锁定 令 牌 才 可 以 完成 写 操作 。 








19.2.5 LOCK 方 法 
WebDAV 中 的 一 个 强大 特性 是 它 能 够 允许 单个 LOCK 请 求 锁 定 多 个 资源 。 
WebDAV 的 锁定 不 需要 客户 端 保持 与 服务 器 的 连接 。 


文 是 一 个 简单 的 LOCK 请 求 示例 : 


LOCK /ch-publish.fm HTTP/1.1 

Host: minstar 

Content-Type: text/xml 

User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT) 
Content-Length: 201 
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«?xml version="1.0"?> 


<a:lockinfo xmlns:a="DAV:"> 


<a:lockscope><a:exclusive/></a:lockscope> 
<a:locktype><a:write/></a:locktype> 
<a:owner><a:href>AuthorA</a:href></a:owner> 


</a:lockinfo> 


提交 的 XML 以 <1ockinfo> 元 素 作 为 其 基 元 素 。 在 -lockinfo> 结构 中 ， 有 以 下 
3 种 子 元 素 。 


° <locktype> 


指明 锁定 的 类 型 。 当 前 只 有 一 种 可 选 值 ， 即 write, 


° <lockscope> 
指明 这 是 独占 锁 还 是 共享 锁 。 


* «owner» 


这 个 字段 设置 为 当前 持 有 锁 的 人 。 


下 面 是 这 个 LOCK 请 求 的 成 功 响应 : 


HTTP/1.1 200 OK 

Server: Microsoft-IIS/5.0 

Date: Fri, 10 May 2002 20:56:18 GMT 
Content-Type: text/xml 
Content-Length: 419 


<?xml version-"1.0"?-» 


«a 


«a: 
«a: 
«a: 


«a 


«a: 
«a: 
«a: 


:prop xmlins:a-"DAV:"- 


lockdiscovery»«a:activelock» 
locktype»«a:write/»«/a:locktype» 
lockscope»«a:exclusive/»«/a:lockscope» 


:owner xmlns:a-"DAV:"»«a:href»AutherA«c«/a:href»«/a:owner» 


locktoken»«a:href»opaquelocktoken:*****-/a:href»«/a:locktoken» 
depth»0«/a:depth» 
timeout»Second-180«-«/a:timeout» 


«/a:activelock»«/a:lockdiscovery» 
«/a:prop» 





«lockdiscovery» JÚ 38 76 24 Æ T fik D Të EL BJ io HK À fE <lockdiscovery> 
元 素 中 的 子 元素 有 <activelock>， 它 持 有 请 求 发 送 来 的 信息 (<locktype>、 
<lockscope> 以 及 -owner>)。 此 外 ，<activelock> 中 还 含有 以 下 子 元 素 。 


° <locktoken> 
用 称 为 opaquelocktoken 的 URI 方 案 唯 一 标识 的 锁 。 考 虑 到 HTTP 天 生 就 是 
无 状态 的 ， 该 令 牌 用 于 在 将 来 的 请 求 中 标识 锁 的 所 有 权 。 





° <depth> 
它 是 Depth 首部 的 值 的 副本 。 


° <timeout> 


间 明 锁 的 超时 时 间 。 在 上 面 的 响应 中 ， 超 时 值 是 180 秒 。 


1. opaquelocktoken7j 3€ 


opaquelocktoken 是 设计 用 来 在 所 有 时 间 内 对 所 有 资源 提供 唯一 令 牌 的 方案 。 为 


了 确保 唯一 性 ，WebDAYV 规范 规定 采用 ISO-11578 中 描述 的 UUID HLHI 


在 实际 实现 的 时 候 ， 有 一 定 的 回旋 余地 。 服 务 器 可 以 选择 为 每 个 LOCK 请 求生 成 一 
个 UUID， 或 者 生成 单个 UUD 并 通过 在 结尾 附加 额外 的 字符 来 维护 唯一 性 。 从 性 
能 角度 衡量 ， 选 择 后 面 那 种 方法 更 好 。 不 过 ， 如 果 服 务 器 选择 实现 后 面 那 种 方法 ， 

















就 必须 保证 附加 的 扩展 部 分 永远 不 会 重用 。 


2. XML 元 素 <lockdiscovery> 


XML 元 素 <lockdiscovery> 提供 了 发 现 活 跃 的 锁 的 机 制 。 如 果 有 人 试图 去 给 已 
经 被 锁定 的 文件 上 锁 ， 他 会 收 到 指明 当前 拥有 者 的 XML 7638 <1ockdiscovery>, 


<lockdiscovery> 元 素 列 出 了 所 有 未 解除 的 锁 和 相应 的 属性 。 


3. 锁 的 刷新 和 Timeout 首 部 





为 了 刷新 锁 ， 客 户 端 需要 重新 提交 锁定 请 求 ， 并 把 锁定 令 牌 放 在 TE 首部 中 。 返 回 


的 超时 值 可 能 和 早先 的 超时 值 不 同 。 


除了 接受 服务 器 给 定 的 超时 值 ， 客 户 端 也 可 以 在 LOCK 请 求 中 指明 要 求 的 超时 值 。 
这 可 以 通过 Timeout 首部 做 到 。Timeout 首部 的 语法 允许 客户 端 在 逗号 分 隔 的 列 








表 中 描述 一 些 选项 。 例 如 : 


Timeout : Infinite, Second-86400 


服务 器 没有 义务 必须 满足 这 些 选 项 。 但 是 ， 客 户 端 必须 在 XML 元 素 «timeout» 中 
提供 锁定 过 期 的 时 间 。 无 论 怎样 ， 锁 定 超时 只 是 一 个 指导 值 ， 服 务 器 不 一 定 受 其 约 
束 。 管 理 员 可 以 手工 重 设 ， 某 些 异 常事 件 也 可 能 导致 服务 器 重 设 锁 。 客 户 端 应 当 避 





免 使 锁定 时 间 太 长 。 


尽管 有 这 些 原 语 ， 图 19-3 中 显示 的 “丢失 更 新 问题 ”并 没有 得 到 完全 解决 。 为 了 彻 





底 解 决 这 个 问题 ， 需 要 带 有 版 本 控制 的 协作 事件 系统 。 
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19.2.6 UNLOCK 方 法 
UNLOCK 方法 用 于 解除 资源 上 的 锁 。 示 例如 下 : 


UNLOCK /ch-publish.fm HTTP/1.1 

Host: minstar.inktomi.com 

User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT) 
Lock-Token: 

opaquelocktoken:********* 


HTTP/1.1 204 OK 
Server: Microsoft-IIS/5.0 
Date: Fri, 10 May 2002 20:56:18 GMT 


与 大 多 数 资 源 管理 请 求 一 样 ， 要 使 UNLOCK 操作 成 功 ，WebDAYV 要 满足 两 个 条 件 ; 
第 一 ， 先 前 已 经 成 功 完成 了 摘要 认证 步骤 ， 第 二 ， 要 与 在 Lock-Token 首部 中 发 送 
的 锁定 令 牌 相 匹配 。 


如 果 解 锁 成 功 ， 会 向 客户 端 发 送 204 No Content 状态 码 。 表 19-1 总 结 了 LOCK 和 
UNLOCK 方法 可 能 的 状态 码 。 








表 19-1 LOCK 和 UNLOCK 方 法 的 状态 码 












































状 d G 定义 者 | 方 法 m R 

200 OK HTTP LOCK 表明 锁定 成 功 

201 Created HTTP LOCK 表明 通过 创建 该 资源 已 成 功 锁定 了 不 存在 的 资源 

204 No Content HTTP UNLOCK | 表明 解锁 成 功 

207 Multi-Status WebDAV LOCK 请 求 锁 定 多 个 资源 。 返 回 的 资源 状态 码 不 完全 一 
样 ， 因 此 ， 这 些 状 态 码 被 封装 在 一 个 207 响应 中 

403 Forbidden HTTP LOCK 表明 客户 端 没有 权限 锁定 资源 

412 Precondition Failed HTTP LOCK 可 能 是 随 LOCK 命令 发 送 的 XML 中 指明 要 满足 
某 条 件 而 服务 器 无 法 完成 ， 也 可 能 是 无 法 强制 执 
行 锁 定 令 牌 

422 Unprocessable Property | WebDAV LOCK 语义 不 适用 一 一 比如 为 不 是 集合 的 资源 指定 了 非 
0 的 Depth 

423 Locked WebDAV LOCK 已 处 于 锁定 状态 

424 Failed Dependency WebDAV UNLOCK | UNLOCK 指定 了 其 他 动作 ， 并 以 它们 的 成 功 作 
为 解锁 的 前 提 条 件 。 如 果 无 法 成 功 完 成 这 些 有 依 
赖 关 系 的 动作 ， 就 返回 此 错误 码 














19.2.7 属性 和 元 数据 
属性 描述 了 资源 的 信息 ， 包 括 作 者 的 名 字 、 修 改 日 期 、 内 容 分 级 ， 等 等 。HTML 中 
的 元 标记 的 确 提 供 了 把 这 种 信息 和 柑 入 在 内 容 之 中 的 机 制 ， 但 很 多 种 资源 (比如 所 有 
二 进 制 数据 ) 都 无 法 能 入 元 数据 。 





像 WebDAV 这 样 的 分 布 式 协作 系统 对 属性 的 需求 就 更 复杂 了 。 例 如 ， 芳 虑 作者 
属性 : 当 文 档 被 编辑 之 后 ， 应 当 更 新 这 个 属性 以 反映 新 的 作者 。WebDAYV 专门 把 
这 种 可 动态 修改 的 属性 称 为 “ 活 ” 属 性 。 与 之 相对 的 是 更 长 久 的 静态 属性 ， 比 如 
Content-Type， 称 为 “ 死 属性 。 


为 了 支持 查找 和 修改 属性 ，WebDAYV 扩展 了 HTTP 以 包括 两 个 新 方法 : PROPFIND 
和 PROPPATCH。 后 面 几 节 给 出 了 示例 并 讲解 了 相关 的 XML 元 素 。 








19.2.8 PROPFIND 方 法 


PROPFIND 方法 用 于 获取 一 个 给 定 文件 或 一 组 文件 (也 称 为 “集合 ”) 的 属性 。 
PROPFIND 支持 3 种 类 型 的 操作 : 


。 请 求 所 有 的 属性 及 其 值 ， 
° 请 求 一 组 属性 及 其 值 ， 
。 请 求 所 有 属性 的 名 称 。 


下 面 这 个 例子 中 ， 请 求 的 是 所 有 属性 及 其 值 : 


PROPFIND /ch-publish. fm HTTP/1.1 

Host: minstar.inktomi.com 

User-Agent: Mozilla/4.0 (compatible; MSIE 5.0; Windows NT) 
Depth: 0 

Cache-Control: no-cache 








Connection: Keep-Alive 
Content-Length: 0 


<propfind> 请 求 元 素 指 定 了 从 PROPFIND 方法 返回 的 属性 。 下 面 的 列表 总 结 了 用 
于 PROPFIND 请 求 的 一 些 XML 元 素 : 


° <allprop> 
要 求 返回 所 有 属性 的 名 字 和 值 。 为 了 请 求 所 有 的 属性 及 其 值 ，WebDAY 客户 端 
可 以 将 XML 子 元 素 <allprop> 作为 <propfind> 元 素 的 一 部 分 发 送 , 或 提交 一 
个 没有 主体 的 请 求 。 

° <propname> 


指定 要 返回 属性 名 字 的 集合 。 





° <prop> 
<propfind> 元 素 的 子 元 素 。 指 定 需要 返回 值 的 属性 。 例如 :<a:prop> «a:owner 
[523 ks «/a:prop». 


下 面 是 对 一 个 PROPFIND 请 求 示 例 的 响应 : 
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HTTP/1.1 207 Multi-Status 
Server: Microsoft-IIS/5.0 


<?xml version-"1.0"?» 
«a:multistatusxmlns:b-"urn:uuid:********/" xmlns:cs"xml:" 
xmlns:a="DAV: "> 

<a:response> 

<a:href>http://minstar/ch-publish.fm </a:href> 
«a:propstat» 

«a:sSgtatus»HTTP/1.1 2000K-/a:status» 

«a:prop» 

«a:getcontentlength b:dt-"int"»1155«/a:getcontentlength» 


«a:ishidden b:dt-"boolean"»0«/a:ishidden» 
«a:iscollection b:dt-"boolean"»50«/a:iscollection» 


«/a:prop» 

«/a:propstat» 

«/a:response»«/a:multistatus» 
在 这 个 例子 中 ， 服 务 器 以 207 Multi-Status 状态 码 进行 响应 。WebDAYV 将 207 用 在 
PROPFIND 和 其 他 几 个 WebDAV 方法 上 ， 它 们 同时 作用 在 多 个 资源 上 并 且 每 个 资 
源 可 能 有 不 同 的 响应 。 
响应 中 的 几 个 XML 元 素 的 定义 如 下 所 示 。 


° <multistatus> 


多 重 响应 的 容器 。 











° <href> 


标识 资源 的 URI, 


° <status> 


包含 特定 请 求 的 HTTP 状态 码 。 


° <propstat> 
将 一 个 «status» 元 素 和 一 个 «prop» 元 素 组 织 在 一 起 。<prop> 元 素 可 以 包含 
给 定 资源 的 一 个 或 多 个 属性 名 / 值 对 。 


在 上 面 列 出 的 示例 响应 中 ， 响 应 是 针对 URI: http://minstar/ch-publish.fm 的 。 
«propstat» 元 素 内 人 能 了 一 个 «status» 元 素 和 一 个 «prop» 元 素 。 服 务 器 为 这 个 
URI 回复 了 一 个 200 OK 响应 ， 它 定义 在 «status» 元 素 中 。<prop> ILA P A tr 
干 子 元 素 ， 例 子 中 只 列 出 了 一 部 分 。 


PROPFIND 的 实例 应 用 是 对 目录 列表 的 支持 。 考 虑 到 PROPFIND 请 求 的 表达 能 力 ， 











单 次 调用 就 能 获取 集合 的 整个 层次 结构 和 其 中 各 个 独立 实体 的 所 有 属性 。 


19.2.9 PROPPATCH 方 法 
PROPPATCH 方法 为 对 指定 资源 设置 或 删除 多 个 属性 提供 了 原子 化 机 制 。 原 子 化 可 
以 保证 要 么 所 有 请 求 都 成 功 ， 要 么 跟 所 有 请 求 都 没 发 出 一 样 。 
PROPPATCH 方法 的 XML 基 元 素 是 zpropertyupdate>。 它 作为 一 个 容器 使 用 ， 
容纳 了 需要 修改 的 属性 。XML HJ «set» 和 <remove> 元 素 用 于 描述 操作 。 
° «get» 
指定 要 设置 的 属性 值 。<set> 含有 一 个 或 多 个 prop» 子 元 素 ， 它 们 依次 包含 了 
该 资源 上 要 设置 的 属性 的 名 / 值 对 。 如 果 属 性 已 存在 ， 其 值 就 被 覆盖 。 





° <remove> 
指定 要 删除 的 属性 。 与 «secs 不 同 的 是 ， 在 «props 容器 中 只 列 出 了 属性 的 名 称 。 
下 面 这 个 小 例子 设置 并 删除 了 owner 属性 : 








«d:propertyupdate xmlns:d-"DAV:" xmlns:o="http://name-space/scheme/"> 
«d:set» 
«d:prop» 
«o:owner»Author A«/o:owner» 
«/d:prop» 
«/d:set» 


«d:removes 
«d:prop» 
«o:owner/» 
«/d:prop» 
«/d:remove» 
«/d:propertyupdate» 
对 PROPPATCH 请 求 的 响应 和 对 PROPFIND 请 求 的 响应 非常 像 。 参 见 RFC 2518 以 


歼 取 更 多 信息 。 
X 19-2 总 结 了 PROPFIND 和 PROPPATCH 方法 的 状态 码 。 
表 19-2 PROPFIND 与 PROPPATCH 方 法 的 状态 码 


K 态 码 = X 者 > 法 效 果 
200 OK HTTP PROPFIND, PROPPATCH | 命令 成 功 





207 Multi-Status | WebDAV PROPFIND, PROPPATCH | 作用 于 一 个 或 多 个 资源 (或 者 集合 ) 时 ， 
每 个 对 象 的 状态 都 被 封装 到 一 个 207 响 
应 中 。 这 是 一 种 常见 的 成 功 响应 


401 Unauthorized | HTTP PROPATCH 需要 授权 才能 完成 对 属性 的 修改 操作 
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K 态 m E x 者 > 法 效 果 

403 Forbidden HTTP PROPFIND, PROPPATCH | 对 于 PROPFIND 来 说 ， 客 户 端 不 允许 访 
问 该 属性 。 对 于 PROPPATCH 来 说 ， 客 
户 端 不 允许 修改 该 属性 

404 Not Found | HTTP PROPFIND 属性 不 存在 

409 Conflict HTTP PROPPATCH Hf Bicis x. opo 例如 ， 试 图 修改 只 
读 的 属性 

423 Locked WebDAV PROPPATCH 目标 资源 被 锁定 ， 并 且 没 有 提供 锁定 令 
牌 , 或 者 锁定 令 牌 不 匹配 

507 Insufficient | WebDAV PROPPATCH 没有 足够 的 空间 登记 修改 的 属性 











Storage 


19.2.10 ”集合 与 名 字 空 间 管理 

集合 是 指 对 预定 义 的 层次 结构 中 的 资源 进行 的 逻辑 或 物理 上 的 分 组 。 和 集合 的 一 个 — 典 
型 的 例子 就 是 目录 。 就 像 文件 系统 中 的 目录 一 样 ， 集 合作 为 其 他 资源 (也 包括 其 他 
集合 ， 和 文件 系统 中 的 目录 一 样 ) 的 容器 使 用 。 


WebDAV 使 用 了 XML 的 名 字 空 间 机 制 。 与 传统 的 名 字 空 间 不 同 ，XML 名 字 空 间 
的 分 区 在 阻止 所 有 名 字 空 间 冲 突 的 同时 ， 还 允许 进行 精确 的 结构 控制 。 








WebDAV 提供 了 5 种 方法 对 名 字 空 间 进行 操作 : DELETE, MKCOL, COPY, MOVE 
以 及 PROPFIND。 本 章 前 面 已 经 讨论 过 PROPFIND 了 ， 下 面 来 讨论 其 他 方法 。 


19.2.11 MKCOL 方 法 

MKCOL 方法 允许 客户 端 在 服务 器 上 指定 的 URL 处 创建 集合 。 年 一 看 ， 仅 仅 为 了 创 

建 集 合 而 定义 一 个 新 方法 好 像 有 点 儿 多 余 。 在 PUT 或 POST 方法 之 上 加 以 修饰 看 起 

来 就 是 个 完美 的 灰 代 方案 。WebDAY 协议 的 设计 者 确实 考虑 过 这 些 灰 代 方 案 ， 但 最 

终 还 是 选择 定义 一 个 新 方法 。 决 策 背 后 的 一 些 理由 如 下 所 述 。 

。 为 了 使 用 PUT 或 POST 来 创建 集合 ,客户 端 要 随 请 求 发 送 一 些 额外 的 “语义 黏 胶 ”。 
这 当然 是 可 以 做 到 的 ， 但 定义 这 种 特别 的 东西 总 是 乏味 且 易 错 的 。 

。 大 多 数 访问 控制 机 制 都 是 建立 在 方法 类 型 之 上 的 一 一 只 有 少数 能 在 库 中 创建 和 删 
除 资源 。 如 果 给 其 他 方法 过 多 的 功能 ， 这 些 访问 控制 机 制 就 无 法 运作 了 。 


下 面 是 请 求 的 例子 : 














MKCOL /publishing HTTP/1.1 
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Host: minstar 
Content-Length: 0 
Connection: Keep-Alive 


其 响应 可 能 是 : 





HTTP/1.1 201 Created 

Server: Microsoft-IIS/5.0 

Date: Fri, 10 May 2002 23:20:36 GMT 
Location: http://minstar/publishing/ 
Content-Length: 0 


我 们 再 考察 下 面 几 种 异常 情况 
。 经 存在 。 如 果 发 出 MKCOL /colA 请 求 而 colA 已 存在 (也 就 是 说 有 名 
空间 冲突 )， 请 求 会 失败 ， 状 态 码 是 405 Method Not Allowed, 
。 s 写 权 限 ，MKCOL 请 求 会 得 到 403 Forbidden 失败 状态 码 。 440 


° 如 果 发 出 MKCOL /colA/colB 这 样 的 请 求 而 colA 不 存在 ， 请 求 会 失败 ， 状 态 码 
是 409 Conflict。 

















创建 了 文件 或 集合 之 后 ， 可 以 用 DELETE 方法 来 删除 。 


19.2.12 DELETE 方法 
我 们 已 经 在 第 3 章 探 讨 过 DELETE Hi T. WebDAV 扩展 了 它 的 语义 以 履 盖 集合 


如 果 需 要 删除 一 个 目录 ， 就 要 提供 Depth 首部 。 如 果 没 有 指定 pepth 首部 ， 
DELETE 方法 就 假定 Depth 首部 设 定 为 无 穷 大 一 一 也 就 是 说 ， 该 目录 中 的 所 有 文件 
和 子 目录 都 会 被 删除 。 响 应 中 也 有 Content-Location 首部， 其 值 就 是 刚 被 删除 的 
集合 。 下 面 是 一 个 请 求 的 示例 : 


DELETE /publishing HTTP/1.0 
Host: minstar 


其 响应 的 示例 如 下 : 


HTTP/1.1 200 OK 

Server: Microsoft-IIS/5.0 

Date: Tue, 14 May 2002 16:41:44 GMT 
Content-Location: http://minstar/publishing/ 
Content-Type: text/xml 

Content-Length: 0 


删除 集合 时 ， 总 是 有 可 能 发 生 其 中 某 个 文件 被 其 他 人 锁定 而 无 法 删除 的 情况 。 在 这 
种 情况 下 ， 集 合 自 身 也 无 法 删除 ， 服 务 器 会 以 207 Multi-Status 状态 码 响 应 。 请 求 示 
例如 下 : 
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DELETE /publishing HTTP/1.0 
Host: minstar 


其 响应 的 示例 如 下 : 


HTTP/1.1 207 Multi-Status 

Server: Microsoft-IIS/5.0 

Content-Location: http://minstar/publishing/ 

<?xml version-"1.0"?» 

«a:multistatus xmlns:a-"DAV:"- 

«a:response» 
«a:href»http://minstar/index3/ch-publish.fm«/a:href» 
«a:Status» HTTP/1.1 423 Locked -«/a:status» 
«/a:response» 

«/a:multistatus» 


在 这 次 事务 中 ，XML JÚ P «status» 中 含有 状态 码 423 Locked, K HJ vt Jš: ch- 
publish.fm 被 别 的 用 户 锁定 了 。 





19.2.13 COPY 与 MOVE 方 法 

和 MKCOL 一 样 ， 有 若干 种 方法 可 以 定义 新 的 COPY fl MOVE 操作 方法 。 其 中 一 
种 方式 规定 COPY 方法 先 对 源 进行 GET 请 求 ， 下 载 资 源 ， 然 后 用 PUT 请 求 上 传 
回 服务 器 。 可 以 设想 ，MOVE 方法 也 有 类 似 的 操作 情况 (有 个 额外 的 DELETE 操 
作 )。 然 而 ， 这 种 处 理 过 程 无 法 很 好 地 适应 规模 扩展 一 一 考虑 一 下 在 多 级 的 集合 上 进 
行 COPY 或 MOVE 操作 管理 所 涉及 的 问题 吧 。 











COPY 和 MOVE 方法 都 将 请 求 URL 作为 源 ，HTTP 的 Destination 首部 的 内 容 作 
为 目标 。MOVE 方法 在 COPY 方法 之 外 还 要 做 一 些 工作 : 它 把 源 URL 复制 到 目的 
地 ， 检 查 新 创建 的 URI 的 完整 性 ， 再 把 源 删 除 。 请 求 示例 如 下 : 


{COPY, MOVE} /publishing HTTP/1.1 
Destination: http://minstar/pub-new 
Depth: infinity 

Overwrite: T 

Host: minstar 


其 响应 示例 如 下 : 


HTTP/1.1 201 Created 

Server: Microsoft-IIS/5.0 

Date: Wed, 15 May 2002 18:29:53 GMT 

Location: http://minstar.inktomi.com/pub-new/ 
Content-Type: text/xml 

Content-Length: 0 


在 对 集合 操作 时 ，COPY & MOVE 的 行为 受到 Depth 首部 的 影响 。 如 果 没 有 
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Depth 首部 ， 就 默认 其 值 是 无 穷 大 (就 是 说 ， 默 认 会 把 源 目 录 的 整个 结构 进行 复制 
或 移动 )。 如 果 Depth 设置 为 0, 方法 就 只 作用 于 资源 本 身 。 如 果 我 们 是 对 集合 进 
行 复制 或 移动 的 话 ， 在 目的 地 就 只 创建 和 源 具 有 相同 属性 的 集合 一 一 集合 内 部 的 成 
员 就 不 再 复制 或 移动 了 。 


对 于 MOVE Fik, Depth 首部 的 值 只 允许 为 无 穷 大 ， 原 因 显而易见 。 











1. overwrite 首 部 的 效果 

COPY 和 MOVE 方法 也 可 能 使 用 overwrite 首部 。overwrite 首部 的 值 可 以 是 T 
或 了 。 如 果 设 置 为 了 而 且 目标 已 存在 ， 就 在 COPY 或 MOVE 之 前 ， 对 目标 资源 执行 
Depth 值 为 无 穷 大 的 DELETE 操作。 如 果 overwrite 标志 设置 为 F 而 目标 资源 存 
在 ， 则 操作 会 失败 。 


2. 对 属性 的 COPY/MOVE 

当 复 制 集合 或 元 素 时 ， 上 默认 会 复制 其 所 有 属性 。 不 过 ， 请 求 可 以 带 有 可 选 的 XML 
主体 来 提供 额外 的 操作 信息 。 可 以 指定 要 使 操作 成 功 ， 必 须 成 功 复制 所 有 属性 ;或 
者 定义 要 使 操作 成 功 ， 必 须 复制 哪些 属性 。 


下 面 有 两 个 特殊 状况 下 的 例子 。 


。 假设 把 COPY 或 MOVE 作用 到 CGI 程序 或 者 其 他 产生 内 容 的 脚本 程序 的 输出 上 。 
为 了 保持 语义 ， 如 果 由 CGI 脚本 产生 的 文件 被 复制 或 移动 了 ，WebDAYV 要 提供 
src 和 1ink 这 两 个 XML 元 素 ， 指 向 产生 此 页 面 的 程序 的 位 置 。 

。 COPY fll MOVE 方法 不 一 定 能 够 复制 所 有 的 活 属 性 。 例 如 ， 我 们 来 看 一 个 CGI 
程序 。 如 果 从 cgi-bin 目录 中 把 它 拷贝 走 ， 可 能 就 不 会 再 去 执行 它 了 。WebDAV 
的 现 有 规范 让 COPY 和 MOVE 实现 的 是 “尽力 而 为 ”解决 方案 ， 复制 所 有 的 静 
态 属 性 和 合适 的 活 属性 。 


3. 被 锁定 的 资源 与 COPY/MOVE 
如 果 资 源 目 前 正 被 锁定 ，COPY 和 MOVE 都 禁止 把 锁 移动 或 复制 到 目标 上 。 在 这 两 
种 情况 下 ， 如 果 要 在 一 个 自己 有 锁 的 现存 集合 中 创建 目标 ， 所 复制 或 移动 的 资源 就 
会 被 加 到 那个 锁 中 。 请 看 下 面 的 例子 : 





COPY /publishing HTTP/1.1 
Destination: http://minstar/archived/publishing-old 


假设 /publishing 和 /archived 分 别处 于 两 个 不 同 的 锁 之 下 : lockl 和 1lock2。 当 COPY 
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操作 结束 时 ，/publishing 仍旧 处 于 lockl 的 范围 内 ， 而 由 于 移动 到 了 已 被 lock2 锁 
定 的 集合 中 ，publishing-old 被 加 入 到 了 lock2 中 。 如 果 是 MOVE 操作 ， 就 只 有 
publishing-old 被 加 入 lock2 。 





K 19-3 列 出 了 MKCOL, DELETE, COPY 以 及 MOVE 方法 最 有 可 能 磁 到 的 状态 码 。 


表 19-3 MKCOL、DELETE、COPY 和 MOVE 方 法 的 状态 码 





R 态 码 E X 者 方 ” 法 效果 
102 Processing WebDAV | MOVE, COPY 如 果 请 求 花 费 的 时 间 超 过 20 秒 ， 服 务 器 就 发 送 


201 Created 


204 No Content 


207 Multi-Status 


403 Forbidden 


409 Conflict 


412 Precondition 
Failed 


415 Unsupported 
Media Type 


422 Unprocessable 
Entity 


423 Locked 


502 Bad Gateway 


507 Insufficient 
Storage 





HTTP 


HTTP 


WebDA V 


HTTP 


HTTP 


HTTP 


HTTP 


WebDAV 


WebDAV 


HTTP 


WebDAV 





MOVE 


DELETE, 
MOVE 


MKCOL, 
MOVE 





MKCOL, 
MOVE 


MKCOL, 
MOVE 


COPY, MOVE 


MKCOL 


MKCOL 


DELETE, COPY, 


MOVE 
COPY, MOVE 


MKCOL, COPY 


MKCOL, COPY, 


COPY. 


COPY. 


COPY, 


COPY, 








这 个 状态 码 防止 客户 端 超时 。 通 常 在 COPY 或 
MOVE 大 的 集合 时 可 以 见 到 


对 于 MKCOL， 表 示 集 合 创 建成 功 。 对 于 COPY 
和 MOVE， 表 示 资 源 /集合 已 经 复制 或 移动 成 功 


对 于 DELETE， 表 示 标 准 的 成 功 响 应 。 对 于 
COPY 和 MOVE， 表 示 资 源 被 成 功 地 复制 或 移动 
而 覆盖 了 已 有 的 实体 


对 于 MKCOL， 表 示 和 常见 的 成 功 响 应 。 对 于 
COPY fll MOVE 来 说 ， 如 果 有 与 资源 相关 (ES 
请 求 URI 之 外 的 ) 的 错误 ， 服 务 器 就 回复 207 
响应 ， 其 中 带 有 详 述 错误 的 XML 主体 
对 于 MKCOL， 表 明 服 务 器 不 允许 在 指定 的 位 置 
创建 集合 。 对 于 COPY 和 MOVE， 表 明 源 和 目 
的 是 相同 的 

三 种 情况 类 似 ， 都 是 方法 试图 创建 集合 或 资源 ， 
而 中 间 集 合 不 存在 一 一 例如 ， 试 图 创建 colA/ 
colB, ifii colA 不 存在 
或 者 是 Overwrite 首部 设置 为 而 目标 存在 ， 
或 者 是 XML 主体 描述 了 一 个 特定 需求 (比如 保 
FE liveness J PE), Im COPY 或 MOVE 方法 
无 法 保持 该 属性 
服务 器 不 支持 或 不 理解 如 何 创 建 请 求 的 实体 类 型 




























































































服务 器 不 理解 请 求 中 发 送 的 XML 主体 























源 或 目标 资源 被 锁定 ， 或 者 方法 提供 的 锁定 令 牌 
不 匹配 

目标 在 不 同 的 服务 器 上 并 且 缺 少 权限 

没有 足够 的 空闲 空间 创建 资源 














19.2.14 增强 的 HTTP/1.1 方 法 


WebDAV 修改 了 HTTP P DELETE, PUT 以 及 OPTIONS 方法 的 语义 。GET 和 
HEAD 方法 的 语义 保持 不 变 。POST 执行 的 操作 总 是 由 特定 的 服务 器 实现 来 定义 
Hj, rfj WebDAV 没有 对 POST 的 语义 进行 任何 修改 。 我 们 已 经 在 19.2.10 市 讨论 过 
DELETE 方法 了 。 这 里 将 讨论 PUT 和 OPTIONS 方法 。 








1. PUT 方法 
尽管 PUT 不 是 由 WebDAYV 定义 的 ， 但 这 是 作者 把 内 容 传送 到 共享 站 点 上 的 唯一 方 
法 。 我 们 在 第 3 章 中 讨论 过 PUT 的 一 般 功 能 。WebDAYV 修改 了 该 方法 以 支持 锁定 。 


请 看 下 面 的 例子 : 





PUT /ch-publish.fm HTTP/1.1 

Accept: */* 

If:«http://minstar/index.htm» («opaquelocktoken:********;) 
User-Agent: DAV Client (C) 

Host: minstar.inktomi.com 

Connection: Keep-Alive 

Cache-Control: no-cache 

Content-Length: 1155 


为 了 支持 锁定 ，WebDAYV 在 PUT 请 求 中 增加 了 IE 首部 。 在 上 面 的 事务 中 ，IE 首 
部 的 语义 规定 ， 如 果 IE 首部 中 说 明 的 锁定 令 牌 与 资源 (在 这 个 例子 中 ， 是 ch- 
publish.fm) 上 的 锁 相 匹配 ， 就 应 当 执 行 PUT 操作 。If 首部 还 用 在 其 他 一 些 方 
法 中 ， 比 如 PROPPATCH、DELETE、MOVE、LOCK 以 及 UNLOCK 等 。 











2. OPTIONS 方 法 

我 们 在 第 3 章 中 讨论 过 OPTIONS。 这 通常 是 启用 了 WebDAV 的 客户 端 发 出 的 第 一 
个 请 求 。 客 户 端 可 以 用 OPTIONS 方法 验证 WebDAV 的 能 力 。 请 看 一 个 事务 ， 其 请 
求 如 下 : 





OPTIONS /ch-publish.fm HTTP/1.1 
Accept: */* 
Host: minstar.inktomi.com 


其 响应 如 下 : 


HTTP/1.1 200 OK 

Server: Microsoft-IIS/5.0 

MS-Author-Via: DAV 

DASL: <DAV:sql> 

DAV: 1, 2 

Public: OPTIONS, TRACE, GET, HEAD, DELETE, PUT, POST, COPY, MOVE, 








444 








发 布 系统 | 465 











445 








MKCOL,PROPFIND,PROPPATCH, LOCK, UNLOCK, SEARCH 
Allow: OPTIONS, TRACE, GET, HEAD, DELETE, PUT, COPY, MOVE, 
PROPFIND,PROPPATCH, SEARCH, LOCK, UNLOCK 


在 对 OPTIONS 方法 的 响应 中 有 一 些 有 趣 的 首部 。 下 面 的 介绍 略微 打 乱 了 一 下 顺序 。 








° DAV 首部 携带 了 DAV 遵从 级 别 的 信息 。 有 下 面 两 类 遵从 。 


第 1 类 遵从 
要 求 服务 器 遵从 RFC2518 每 节 中 的 所 有 MUST 需求 。 如 果 资 源 只 能 达到 第 1 类 
遵从 ， 就 要 在 pav 首部 中 发 送 1。 





第 2 类 遵从 

满足 所 有 第 1 类 的 需求 ， 并 增加 对 LOCK 方法 的 支持 。 除 了 LOCK 方法 之 外 ， 第 
2 类 遵从 还 要 求 支持 Timeout 和 Lock-Token 首部 以 及 <supportedlock> 和 
«lockdiscovery» 这 两 个 XML 元 素 。 在 Dav 首部 中 的 值 2 表明 第 2 类 遵从 。 


在 上 面 的 例子 中 ，DAV 首部 表明 这 两 类 遵从 都 满足 。 


。 Public 首部 列 出 了 这 个 特定 的 服务 器 支持 的 全 部 方法 。 

。 Allow 首部 通常 包括 Public 首部 所 列 方法 的 一 个 子 集 。 它 只 列 出 了 对 这 个 特定 
资源 (ch-publish.fm) 有 效 的 方法 。 

。 DASL 首部 说 明了 在 SEARCH 方法 中 使 用 的 查询 语法 的 类 型 。 在 这 个 例子 中 ， 就 
Æ sql WS XT pash 首部 的 细节 参见 http://www.webdav.org。 





19.2.15. WebDAV 中 的 版 本 管理 

这 可 能 有 点 儿 讽刺 ， 尽 管 DAV 这 个 名 字 中 有 V， 但 版 本 管理 这 个 特性 却 不 是 开始 
就 有 的 。 在 多 个 作者 的 协作 环境 中 ， 版 本 管理 是 至 关 重 要 的 。 实 际 上 ， 为 了 完全 解 
决 更 新 丢失 的 问题 (图 19-3 中 有 展示 ) ， 锁 定 和 版 本 化 都 是 必 不 可 少 的 。 和 版 本 管 
理 相 关 的 一 些 常 见 特 征 包 括 保存 和 访问 以 前 的 文档 版 本 的 能 力 、 管 理 变更 历史 以 及 
与 变更 相关 的 注解 以 详细 说 明 变 更 过 程 的 能 


在 RFC 3253 中 为 WebDAV 加 入 了 版 本 管理 功能 。 


19.2.16 ” WebDAV 的 未 来 发 展 

WebDAV 现在 已 经 获得 了 良好 的 支持 。 可 以 工作 的 客户 端 实 现 包括 IE 5.x 及 以 上 版 
本 ，Windows 系统 的 文件 管理 器 以 及 微软 的 办 公 软 件 。 在 服务 器 端 ， 可 用 的 实现 包 
括 IIS5.x 及 以 上 版 本 ，Apache 的 mod_dav 以 及 很 多 其 他 的 系统 。Windows XP 和 
Mac OS 10.x 都 提供 了 对 WebDAV 的 原生 支持 。 因 此 ， 为 这 些 操作 系统 编写 的 任何 
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应 用 程序 天 生 都 具备 使 用 WebDAY 的 能 力 。 


1 9. 3 更 多 信息 IUS 
参考 下 列 网 址 以 获取 更 多 信息 。 


° http://officeupdate.microsoft.com/frontpage/wpp/serk/ 


微软 FrontPage 2000 服务 器 扩展 资源 包 。 


° http://www .ietf.org/rfc/rfc2518.txt?number-2518 
“HTTP Extensions for Distributed Authoring —WEBDAV” (“HTTP 的 分 布 式 写作 
扩展 一 WEBDAV”)， 作 者 是 Y. Goland, J. Whitehead, A. Faizi, S. Carter 以 及 


D. Jensen 。 


° http://www ietf.org/rfc/rfc3253.txt?number-3253 
“Versioning Extensions to WebDAV” (“Xf WebDAV 进行 版 本 管理 扩展 ”)， 作 者 
是 G. Clemm. J. Amsden, T. Ellison, C. Kaler 和 J. Whitehead, 





° http://www.ics.uci.edu/pub/ietf/Webdav/intro/Webdav intro.pdf 
“WEBDAV: IETF Standard for Collaborative Authoring on the Web" 
(“WEBDAV: 在 Web 上 进行 协同 写作 的 IETF 标准” ) ， 作 者 是 本 Whitehead 和 
M. Wiggins, 


° http://www.ics.uci.edu/-ejw/http-future/whitehead/http pos paper.html 
"Lessons from WebDAV for the Next Generation Web Infrastructure" (“在 下 一 代 
Web 的 基础 架构 中 借 览 WebDAV"), ， 作 者 是 J. Whitehead, 





° http://www.microsoft.com/msj/0699/dav/davtop.htm 
“Distributed Authoring and Versioning Extensions for HTTP Enable Team 
Authoring" (“HTTP 中 为 支持 团队 写作 而 做 的 分 布 式 写作 和 版 本 管理 扩展 ")， 作 
者 是 L. Braginski 和 M.Powell。 





° http://www.webdav.org/dasl/protocol/draft-dasl-protocol-00.html 
“DAV Searching & Locating” (“DAV 中 的 搜索 和 定位 ?>)， 作 者 是 S. Reddy, D. 
Lowry, S. Reddy, R. Henderson, J. Davis 以 及 A. Babich, 
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HTTP 并 不 是 独自 运行 在 网 上 的 。 很 多 协议 都 会 在 HTTP 报 文 的 传输 过 程 中 对 其 数 
据 进行 管理 。HTTP 只 关心 旅程 的 端点 〈 发 送 者 和 接收 者 )， 但 在 包含 有 镜像 服务 
器 、Web 代理 和 缓存 的 网 络 世 界 中 ，HTTP 报 文 的 目的 地 不 一 定 是 直接 可 达 的 。 

















本 章 介绍 重 定向 技术 ， 涉 及 网 络 工具 、 重 定向 技术 细 市 以 及 判定 HTTP 报 文 最 终 目 
的 地 的 协议 。 重 定向 技术 通常 可 以 用 来 确定 报 文 是 否 终结 于 某 个 代理 、 缓 存 或 服务 
器 集群 中 某 台 特定 的 服务 器 。 重 定向 技术 可 以 将 报 文 发 送 到 客户 端 没 有 显 式 请 求 的 
地 方 去 。 


本 章 ， 我 们 会 学 习 下 列 重 定向 技术 ， 它 们 是 如 何 工 作 的 以 及 它们 的 负载 均衡 能 力 如 
何 〈 如 果 有 的 话 ) : 




















° HTTP 重 定向 ，; 

° DNS 重 定向 ; 

° 任 播 路 由 ， 

° 策略 路 由 ; 

° IP MAC 转发 ， 

° IP 地 址 转发 ， 

e WCCP (Web 缓存 协调 协议 ) ; 
° ICP 〈 缓 存 间 通 信 协 议 ) ; 

* HTCP ( 超 文本 缓存 协议 ) ; 

° NECP (网 元 控制 协议 ) ; 

。 CARP (缓存 阵列 路 由 协议 ) : 
。 WPAD (Web 代理 自动 发 现 协议 )。 


20.1 为 什么 要 重 定 回 


由 于 HTTP 应 用 程序 总 是 要 做 下 列 3 件 事 情 ， 所 以 在 现代 网 络 中 重 定向 是 普遍 存 
在 的 : 


。 可 靠 地 执行 HTTP 事务 ， 
。 最 小 化 时 延 ， 
。 节约 网 络 带宽 。 











出 于 这 些 原因 ，Web 内 容 通 常 分 布 在 很 多 地 方 。 这 么 做 是 出 于 可 靠 性 的 考虑 。 这 
样 ， 如 果 一 个 位 置 出 问题 了 ， 还 有 其 他 的 可 用 ;如果 客 户 端 能 去 访问 较 近 的 资源 ， 
就 可 以 更 快 地 收 到 所 请 求 的 内 容 ， 以 降低 响应 时 间 ， 将 目标 服务 器 分 散 ， 还 可 以 减 
少 网 络 拥塞 。 可 以 将 重 定向 当 作 一 组 有 助 于 找到 “最 佳 ”分 布 式 内 容 的 技术 。 
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由 于 重 定向 和 负载 均衡 是 共存 的 ， 所 以 本 章 也 涵盖 了 负载 均衡 的 话题 。 大 多 数 重 定 
向 部 署 都 包含 了 茶 些 形式 的 负载 均衡 。 也 就 是 说 ， 它 们 可 以 将 输入 报 文 的 负载 分 摊 
到 一 组 服务 器 中 去 。 反 之 ， 因 为 输入 报 文 一 定 会 在 分 担负 荷 的 服务 器 之 间 进 行 某 种 
分 布 ， 所 以 任意 形式 的 负载 均衡 中 都 包含 了 重 定向 。 


20.2 重 定 向 到 何 地 


从 客户 端 向 目标 发 送 HTTP 请 求 ， 目 标 对 其 进行 处 理 的 角度 来 看 ， 服 务 器 、 代 理 、 
缓存 和 网 关 对 客户 端 来 说 都 是 服务 器 。 很 多 重 定向 技术 都 可 用 于 服务 器 、 人 代理、 组 
存 和 网 关 ， 因 为 它们 具有 共同 的 ， 与 服务 器 类 似 的 特征 。 其 他 一 些 重 定向 技术 是 专 
门 为 特定 类 型 的 端点 设计 的 ， 没 有 通用 性 。 本 章 稍 后 的 小 市 会 介绍 一 些 通 用 及 专用 
的 重 定向 技术 。 


Web 服务 器 会 根据 每 个 IP 来 处 理 请 求 。 将 请 求 分 摊 到 复制 的 服务 器 中 去 ， 就 意味 
着 应 该 把 对 某 特 定 URL 的 每 条 请 求 都 发 送 到 最 佳 的 Web 服务 器 上 去 (最 靠近 客户 
端的 、 或 负载 最 轻 的 或 采用 其 他 优化 策略 选择 的 服务 器 )。 重 定向 到 某 台 服务 器 就 像 
将 所 有 需要 给 汽车 加 油 的 司机 都 送 到 最 近 的 加 油 站 去 一 样 。 


代理 希望 根据 每 个 协议 来 处 理 请 求 。 在 理想 情况 下 ， 某 个 代理 附近 的 所 有 HTTP Ji 
量 都 应 该 通过 这 个 代理 传输 。 比 如 ， 如 果 某 代理 缓存 靠近 各 种 不 同 的 客户 端 ， 那 么 
理想 情况 下 ， 所 有 请 求 都 应 流 经 这 个 代理 缓存 ， 因 为 代理 缓存 上 会 存储 常用 的 文档 ， 
可 以 直接 提供 ， 从 而 避免 通过 更 长 、 更 昂贵 的 路 径 连 接 到 原始 服务 器 。 重 定向 到 代 
理 就 像 从 一 条 主要 通路 (无论 它 通 往 何 处 ) 上 将 流量 分 流 到 一 条 本 地 快捷 路 径 上 去 
一 样 。 


20.3 重 定 向 协议 概览 

重 定 向 的 目标 是 尽快 地 将 HTTP 报 文 发 送 到 可 用 的 Web 服务 器 上 去 。 在 穿 过 因特网 
的 路 径 上 ，HTTP 报 文 传输 的 方向 会 受到 HTTP 应 用 程序 和 报 文 经 由 的 路 由 设备 的 
影响 ， 参 见 以 下 示例 。 


。 配置 创建 客户 端 报 文 的 浏览 器 应 用 程序 ， 使 其 将 报 文 发 送 给 代理 服务 器 。 

。 DNS 解析 程序 会 选择 用 于 报 文 寻 址 的 卫 地 址 。 对 不 同 物理 地 域 的 不 同 客户 端 来 
说 ， 这 个 耳 地 址 可 能 不 同 。 

。 报 文 经 过 网 络 传输 时 ， 会 被 划分 为 一 些 带 有 地 址 的 分 组 ;交换 机 和 路 由 器 会 检查 
分 组 中 的 TCP/IP 地 址 ， 并 据 此 来 确定 分 组 的 发 送 路 线 。 

° Web 服务 器 可 以 通过 HTTP 重 定向 将 请 求 反 弹 给 不 同 的 Web 服务 器 。 
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浏览 器 配置 、DNS、TCP/IP 路 由 以 及 HTTP 都 提供 了 重 定向 报 文 的 机 制 。 注 意 ， 有 
些 方法 ， 比 如 浏览 器 配置 ， 只 有 在 将 流量 重 定向 到 代理 的 时 候 才 有 意义 ， 而 其 他 一 
些 方法 (比如 DNS 重 定向 )， 则 可 用 于 将 流量 发 送 给 任意 服务 器 。' 


K 20-1 总 结 了 用 来 将 报 文 重 定向 到 服务 器 的 重 定向 方法 ， 本 章 稍 后 逐一 讨论 每 种 











方法 。 
表 20-1 通用 的 重 定向 方法 
机 制 工作 方式 重新 路 由 的 基础 局 限 性 
HTTP 重 定向 | 最 初 ，HTTP 请 求 先 到 第 一 台 | 选择 最 短路 径 时 可 用 的 | 可 能 会 很 慢 一 一 每 个 事 
Web 服务 器 ， 这 台 服 务 器 会 选 | 选项 很 多 ， 包 括 轮 转 | 务 都 包含 了 附加 的 重 定 


DNS 重 定向 





任 播 寻 址 


IP MAC 转发 


IP 地 址 转发 





择 一 台 “ 最 佳 ”的 Web 





为 其 提供 内 容 。 第 一 台 Web 服 
条 到 指 


务 器 会 向 客户 端 发 送 一 
定 服务 器 的 HTTP EE 


户 端 会 将 请 求 重新 发 送 到 选中 


的 服务 器 上 


DNS 服务 器 决定 在 URL 的 主 





服务 器 


向 。 客 








(round-robin) 负载 均衡 
和 最 小 化 时 延 等 





向 步 又。 而且 ， 第 一 台 
服务 器 一 定 要 能 够 处 理 
请 求 负载 











选择 最 短路 径 时 可 用 的 





机 名 中 返回 多 个 IP 地 址 中 的 哪 





一 个 





儿 台 服务 器 使 用 相同 的 人 地 


址 。 每 台 服 务 器 都 会 伪 
个 骨干 路 由 器 。 其 他 路 
将 共享 IP 




















装 成 


选项 很 多 ， 包 括 轮 转 
(round-robin) 负载 均衡 
和 最 小 化 时 延 等 


路 由 器 有 内 建 的 最 短路 径 
路 由 功能 











由 器 会 





地 址 分 组 发 送 给 最 近 


的 服务 器 (认为 它们 将 分 组 发 


送 给 最 近 的 路 由 器 ) 














交换 机 或 路 由 器 这 样 的 








网 元 会 


读 取 分 组 的 目的 地 址 。 如 果 应 


该 将 分 组 重 定向 ， 








址 赋予 分 组 























地 址 





交换 机 会 将 
服务 器 或 代理 的 目标 MAC 地 


第 四 层 交 换 机 会 评估 分 组 的 目 
的 端口 并 将 重 定向 分 组 的 全 地 
址 改 成 代理 或 镜像 服务 器 的 IP 














Hs ^p Hb ge 
节省 带宽 ， 


负载 均衡 


提高 QOS。 





节省 带宽 ， 提 高 QOS。 


负载 均衡 








需要 配置 DNS 服务 器 


需要 拥有 /配置 路 由 器 。 
有 地 址 冲突 的 风险 。 如 
果 路 由 变化 了 ， 与 已 建 
立 的 TCP 连接 相关 的 分 
组 会 被 发 送 到 其 他 的 服 
务 器 ， 可 能 会 使 TCP ë 
接 断 裂 


























服务 器 或 代理 的 跳 距 必 


须 是 1 


服务 器 或 代理 可 能 看 不 
到 真正 的 客户 端 IP 地 址 





注 1: DNS 也 不 能 随便 重 定 向 ， 目 标 IP 地 址 的 服务 器 上 没有 托管 所 需 的 虚拟 主机 的 话 ， 就 和 浏览 器 代理 配 
错 一 样 ， 毫 无 意义 。( 译 者 注 ) 
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R 20-2 总 结 了 将 报 文 重 定向 到 代理 服务 器 的 重 定向 方法 。 
表 20-2 ”代理 与 缓存 重 定向 技术 




















机 m 工作 方式 重新 路 由 的 基础 局 限 性 
显 式 浏 览 器 配置 配置 Web 浏览 器 ,使 其 将 | 节省 带宽 ， 提 高 | 取决 于 配置 浏览 器 的 
HTTP 报 文 发 送 给 AW d — QoS。 负 载 均衡 “| 能 
个 代理 ， 通 常 是 缓存 。 可 以 
终端 用 户 或 管理 浏览 器 的 
服务 进行 配置 














代理 自动 配置 (PAC) 














Web Proxy 代理 EE 
协议 (WPAD) 

















Web 缓存 协调 协议 (WCCP) 


因特网 缓存 协议 (ICP) 





缓存 分 组 路 由 协议 (CARP) 


超 文 本 缓存 协议 (HTCP) 











Web 浏览 器 从 配置 服务 
中 解析 出 PAC 文 件 。 这 
PAC 文件 会 告诉 浏览 器 为 
个 URL 使 用 什么 代理 


Web 浏览 器 向 配置 服务 器 查 
询 一 个 PAC 文 件 的 URL, 
与 单独 使 用 PAC Á Fil, + 
需要 将 浏览 器 配置 为 使 用 特 
的 配置 服务 器 














na 

















BE 








路 由 器 会 评估 一 个 分 组 的 目 
的 地 址 ， 并 用 代理 或 镜像 服 
务 器 的 耳 地 址 将 重 定向 分 
组 封装 起 来 。 可 以 与 很 多 现 
有 路 由 器 共同 工作 。 可 以 将 
分 组 封装 起 来 ， 这 样 客户 端 
的 IP 地 址 就 不 会 丢失 了 

代理 缓存 会 在 一 组 兄弟 代理 
缓存 中 查询 所 请 求 的 内 容 。 
还 支持 缓存 的 分 层 结构 


















































一 种 代理 缓存 散 列 协议 。 允 
许 缓 存 将 请 求 转 发 给 一 个 父 
缓存 。 与 ICP 不 同 的 是 ， 高 
速 缓存 上 的 内 容 是 不 相交 
的 ， 这 组 缓存 会 像 一 个 大 型 
缓存 那样 工作 





参与 的 代理 缓存 可 以 向 一 组 
兄弟 缓存 查询 所 请 求 的 内 
容 。 支 持 HTTP LO fü 1.1 
首部 ， 以 便 精 细 地 调整 缓存 
查询 





节省 带 带宽 ， 提高 


QoS。 负 载 均衡 





配置 服务 器 ， 将 
URL 建立 在 客户 
mu HTTP i8 ck # 
部 提供 的 信息 之 
上 。 负 载 均衡 














节省 带宽 ， 提 高 


QoS。 负 载 均衡 





从 兄弟 代理 或 父 
代理 缓存 中 获取 
内 容 比 从 原始 服 
务 器 中 获取 更 快 


从 附近 的 对 等 高 
速 缓 存 中 获取 内 
容 要 比 从 原始 服 
务 器 上 获取 快 











从 兄弟 代理 或 父 
代理 缓存 中 获取 
内 容 比 从 原始 服 
务 器 上 获取 快 








必须 配置 浏览 器 ,使 其 
去 查询 配置 服务 器 


部 分 浏览 器 文 持 
WPAD 


必须 使 用 支持 WCCP 的 
路 由 器 。 有 些 拓扑 结构 
方面 的 限制 


请 求 内 容 时 只 使 用 了 
URL， 所 以 会 降低 缓存 
命中 率 





CARP 无 法 支持 兄弟 关 
系 。 所 有 CARP 客户 端 
都 必须 在 配置 上 达成 一 
致 ， 否 则 ， 不 同 的 客户 
端 就 会 向 不 同 的 父 代 理 
缓存 发 送 相 同 的 URI, 


降低 命中 率 
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` rma Li ` 
20.4 通用 的 重 定向 方法 
本 节 我 们 会 深入 介绍 服务 器 和 代理 常用 的 各 种 重 定向 方法 。 可 以 通过 这 些 技术 将 流 
量 重 定向 到 不 同 的 (可 能 更 优 的 ) 服务 器 ， 或 者 通过 代理 来 转发 流量 。 具 体 来 
说 ， 我 们 会 介绍 HTTP 重 定 向 、DNS 重 定 向 、 任 播 寻 址 、IP MAC 转发 以 及 IP 
地 址 转发 。 

















20.4.1 HTTP 重 定向 

Web 服务 器 可 以 将 短 的 重 定向 报 文 发 回 给 客户 端 ， 告 诉 他 们 去 其 他 地 方 试 试 。 有 些 
Web 站 点 会 将 HTTP 重 定向 作为 一 种 简单 的 负载 均衡 形式 来 使 用 。 处 理 重 定向 的 服 
Za 〈 重 定向 服务 器 ) 找到 可 用 的 负载 最 小 的 内 容 服务 器 ， 并 将 浏览 器 重 定向 到 那 
台 服 务 器 上 去 。 对 广泛 分 布 的 Web 站 点 来 说 ， 确 定 “最 佳 ”的 可 用 服务 器 会 更 复杂 
一 些 ， 不 仅 要 考虑 到 服务 器 的 负载 ， 还 要 考虑 到 浏览 器 和 服务 器 之 间 的 因特网 距离 。 
与 其 他 一 些 形式 的 重 定 向 相 比 ，HTTP 重 定向 的 优点 之 一 就 是 重 定向 服务 器 知道 客 
Pmt IP 地 址 ; 理论 上 来 讲 ， 它 可 以 做 出 更 合理 的 选择 。 











下 面 是 HTTP 重 定 向 的 工作 过 程 。 在 图 20-1a rB, Alice 向 www.joes-hardware.com 
发 送 了 一 条 请 求 : 
GET /hammers.html HTTP/1.0 


Host: www.joes-hardware.com 
User-Agent: Mozilla/4.51 [en] (X11; U; IRIX 6.2 IP22) 


在 图 20-1b 中 ， 服 务 器 没有 回 送 带 有 HTTP 状态 码 200 的 Web 页 面 主体 ， 而 是 回 送 
了 一 个 带 有 状态 码 302 的 重 定向 报 文 : 








HTTP/1.0 302 Redirect 
Server: Stronghold/2.4.2 Apache/1.3.6 
Location: http://161.58.228.45/hammers.html 


现在 ， 在 图 20-1c 中 ,浏览 器 会 用 重 定向 URL 重新 发 送 请 求 ， 这 次 会 发 送 给 主机 
161.58.228.45: 





GET /hammers.html HTTP/1.0 

Host: 161.58.228.45 

User-Agent: Mozilla/4.51 [en] (X11; U; IRIX 6.2 IP22) 
另 一 个 客户 端 可 能 会 被 重 定 向 到 另 一 台 服 务 器 上 去 。 在 图 20-1d-f rh, Bob 的 请 求 会 
被 重 定向 到 161.58.228.46, 
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因特网 







(a) Alice 癌 www.joeS- 


LI: 服务 器 返回 302， 重 定向 到 161.58.228.45 
(c) Du uy n 161.58.228.45 161.58.228.46 161.58.228.47 
Em. is GERA a ! 4 


www.joes-hardware.com — ^ 












因特网 





) Bob[s]www.joes-hardware.com A 3X HTTPigi RK 





onsen 2 
) 服务 器 返回 302， 重 定向 到 161.58.228.46 161.58.228.45 1613822846 161.58.228.47 
JOLIE Rau HTTP;x www.joes-hardware.com 
B o BOR, ixueg.. e^ 
IHR BUS 161 58.22846 要 











20-1 HTTP 重 定向 
HTTP 重 定向 可 以 在 服务 器 间 导 引 请 求 ， 但 它 有 以 下 几 个 缺点 。 


° 需要 原始 服务 器 进行 大 量 处 理 来 判断 要 重 定向 到 哪 台 服务 器 上 去 。 有 时 ， 发 布 重 
定向 所 需 的 处 理 量 几乎 与 提供 页 面 本 身 所 需 的 处 理 量 一 样 。 

° 增加 了 用 户 时 延 ， 因 为 访问 页 面 时 要 进行 两 次 往返 。 

° 如 果 重 定 疝 服 务 器 出 故障 ， 站 点 就 会 瘫痪 。 


由 于 存在 这 些 弱 点 ，HTTP 重 定向 通常 都 会 与 其 他 一 种 或 多 种 重 定向 技术 结合 使 用 。 

















20.4. ”DNS 重 定向 

每 次 客户 端 试 图 访问 Joe 的 五 金 商 店 的 网 站 时 ， 都 必须 将 域名 www.joes-hardware. 
com 解析 为 IP HEHE. DNS 解析 程序 可 能 是 客户 端 自己 的 操作 系统 ， 可 能 是 客户 端 
网 络 中 的 一 台 DNS 服务 器 ， 或 者 是 一 台 远 距离 的 DNS 服务 器 。DNS 允许 将 几 个 IP 
地 址 关联 到 一 个 域 中 ， 可 以 配置 DNS 解析 程序 ， 或 对 其 进行 编程 ， 以 返回 可 变 的 
IP 地 址 。 解 析 程 序 返 回 IP 地 址 时 所 基于 的 原则 可 以 很 简单 (轮转)， 也 可 以 很 复杂 
(比如 查看 几 台 服务 器 上 的 负载 ， 并 返回 负载 最 轻 的 服务 器 的 IP 地 址 )。 
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在 图 20-2 中 ，Joe 为 www.joes-hardware.com 运行 了 4 台 服 务 器 。DNS 服务 器 要 决 
定 为 www.joes-hardware.com 返回 4 个 IP 地 址 中 的 哪 一 个 。 最 简单 的 DNS 决策 算 
法 就 是 轮转 。 








www.joes-hardware.com 


DNS 服务 器 


决定 是 否 解析 到 
10.10.10.1、 P 
10.10.10.2, Á 
10.10.10.3, : 10.10.104 www.joes-hardware.com 


10.10.10.4 io 服务 器 4 


骨干 网 络 


L. — i 10.10.10.1 
a S 服务 器 1 
t aim xe 


www.joes-hardware.com 























边缘 网 络 www.joes-hardware.com — 72 
"— p 10.10.102 
服务 器 2 
10.10.10.3 
服务 器 3 











20-2 基于 DNS 的 重 定向 
整个 DNS 解析 过 程 的 完整 介绍 ， 请 参见 本 章 末 尾 列 出 的 DNS 参考 资料 。 


1. DNS 轮转 

最 常见 的 重 定向 技术 之 一 也 是 最 简单 的 重 定向 技术 之 一 。DNS 轮转 使 用 了 DNS 主机 
名 解析 中 的 一 项 特性 ， 在 Web 服务 器 集群 中 平衡 负载 。 这 是 一 种 单纯 的 负载 均衡 策 
略 ， 没 有 考虑 任何 与 客户 端 和 服务 器 的 相对 位 置 ， 或 者 服务 器 当前 负载 有 关 的 因素 。 


我 们 来 看 看 CNN.com 实际 上 都 做 了 些 什 么 。 我 们 在 2000 年 5 月初， 用 Unix 中 的 
工具 nslookup 来 查找 与 CNN.com 相关 的 I 了 PP 地址。 例 20-1 给 出 了 结果 。” 


例 20-1 www.cnn.com BJ IP 地 址 


% nslookup www.cnn.com 

Name: cnn.com 

Addresses: 207.25.71.5, 207.25.71.6, 207.25.71.7, 207.25.71.8 
207.25.7L1.9, 207.25.71.12, 207.25.71.20, 207.25.71.22, 207.25.71.23 
207.25.71.24, 207.25.71.25, 207.25.71.26, 207.25.71.27, 207.25.71.28 











iE2: DNS 的 结果 是 在 2000 年 5 月 7 日 ， 从 北 加 州 解析 出 来 的 。 有 些 特 定 值 可 能 会 随时 间 发 生变 化 ， 有 些 
DNS 系统 还 会 根据 客户 端的 位 置 返回 不 同 的 值 。 
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207.25.73.29, 207.25.71.20, 207.25.71.82; 207.25.71.:199, 207.25b.71.245 
207.25.71.246 
Aliases: www.cnn.com 


网 站 www.cnn.com 实际 上 是 20 个 不 同 的 IP 地 址 组 成 的 集群 。 每 个 IP 地址 通常 都 
意味 着 一 台 不 同 的 物理 服务 器 。 


2. 多 个 地 址 及 轮转 地 址 的 循环 

大 多 数 DNS 客户 端 只 会 使 用 多 地 址 集中 的 第 一 个 地 址 。 为 了 均衡 负载 ， 大 多 数 
DNS 服务 器 都 会 在 每 次 完成 查询 之 后 对 地 址 进行 轮转 。 这 种 地 址 轮转 通常 称 作 DNS 
轮转 。 


例如 ， 对 www.cnn.com 进行 三 次 连续 的 DNS 查找 可 能 会 返回 例 20-2 给 出 的 那 种 IP 
地 址 轮转 列表 。 


例 20-2 轮转 DNS 地 址 列表 


$ nslookup www.cnn.com 

Name: cnn.com 

Addresses: 207.25.71.5, 207.25.71.6, 207.25.71.7, 207.25.71.8 
207.25.741.9, 207.25.71.12, 207.25,.71.20, 207.25.71.22, 207.25.71.23 
207.25.71.24, 207.25.71.25, 207.25.71.26, 207.25.71.27, 207.25.71.28 
207.25.71.29, 207.25.71.30, 207.25.71.82, 207.25.71.199, 207.25.71.245 
207.25.71.246 


$ nslookup www.cnn.com 

Name: cnn.com 

Addresses: 207.25.71.6, 207.25.71.7, 207.25.71.8, 207.25.71.9 
207.25.71.12, 207.25.71.20, 207.25.71.22, 207.25.71.23, 207.25.71.24 
207.25.71.25, :207.25.71.26, .207.25.71.27, 207.25.71,.,28, 207.25.71.29 
207.25.71.30, 207.25.71.82, 207.25,71.199, 207.25.71.245, 207.25.71.246 
207:25.714.5 


$ nslookup www.cnn.com 

Name: cnn.com 

Addresses: 207.25.71.7, 207.25.71.8, 207.25.71.9, 207.25.71.12 
207.25.741:220,-207.25.7£1.22; 207.25.71.23,- 207.25.71.24; 207.25.71.25 
207.25.71.26, 207.25.71.27, 207.25.71.28,; 207.25.71.29, 207.25.71.30 
207.25.71.82, 207.25.71.199, 207.25.71.245, 207.25.71.246, 207.25.71.5 
207.25.71.06 


在 例 20-2 中 : 


。 第 一 次 DNS 查找 时 的 第 一 个 地 址 为 207.25.71.5; 
。 第 二 次 DNS 查找 时 的 第 一 个 地 址 为 207.25.71.6; 
。 第 三 次 DNS 查找 时 的 第 一 个 地 址 为 207.25.71.7。 
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3. 用 来 平衡 负载 的 DNS 轮转 

由 于 大 多 数 DNS 客户 端 只 使 用 第 一 个 地 址 ， 所 以 DNS 轮转 可 以 在 多 人 台 服 务 器 间 提 
供 负载 均衡 。 如 果 DNS 没有 对 地 址 进行 轮转 ， 大 部 分 客户 端 就 总 是 会 将 负载 发 送 给 
第 一 台 服 务 器 。 








图 20-3 说 明了 DNS 轮转 循环 是 如 何平 衡 负 载 的 。 


e Alice 试图 连接 www.cnn.com 时 ， 会 用 DNS 查找 卫 地 址 ， 得 到 207.25.71.5 fE 
为 第 一 个 IP 地址。 在 图 20-3c H, Alice 连接 到 Web 服务 器 207.25.71.5。 

° Bob 随后 试图 连接 www.cnn.com 时 ， 也 会 用 DNS 查找 IP 地址， 但 由 于 地 址 
列表 在 Alice 上 次 请 求 的 基础 上 轮转 了 一 个 位 置 ， 所 以 他 会 得 到 一 个 不 同 的 结 
果 。Bob 得 到 207.25.71.6 作为 第 一 个 IP 地 址 ， 在 图 20-3f 中 它 连接 到 了 这 人 台 
服务 器 上 。 








(a) Alice 向 DNS 请 求 www.cnn.com 的 地址 


LL (b) DNS 以 207.25.71.5 进 行 回应 
; 207.25.71.5 207.25.71.6 207.25.71.7 
(£2. Alicejig oo, 5 4 




















因特网 


(d) Bob 向 DNS 请 求 www.cnn.com 的 耳 地 址 
nn p. 
Lie) DNS 以 207.25.71.6 进 行 回应 207.25.71.5 I 207.25.71.7 


Alice 





Bob U-PePÉI207 25 71 Go y DNSIR 2 











20-3 DNS 轮转 在 服务 器 集群 的 各 台 服 务 器 之 间 进 行 负载 均衡 
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4. DNS 缓存 带 来 的 影响 

DNS 对 服务 器 的 每 次 查询 都 会 得 到 不 同 的 服务 器 地 址 序列 ， 所 以 DNS 地 址 轮转 会 
将 负载 分 推 。 但 是 这 种 负载 均衡 并 不 完美 ， 因 为 DNS 查找 的 结果 可 能 会 被 记 住 ， 并 
被 各 种 应 用 程序 、 操 作 系 统 和 一 些 简易 的 子 DNS 服务 器 重用 。 很 多 Web 浏览 器 都 
会 对 主机 进行 DNS 查找 ， 然 后 一 次 次 地 使 用 相同 的 地 址 ， 以 减少 DNS 查找 的 开销 ， 
而 且 有 些 服 务 器 也 更 愿意 保持 与 同一 台 客 户 端的 联系 。 另 外 ， 很 多 操作 系统 都 会 

动 进行 DNS 查找 ， 并 将 结果 缓存 ， 但 并 不 会 对 地 址 进行 轮转 。 因 此 ，DNS 轮转 通 
常 都 不 会 平衡 单个 客户 端的 负载 一 一 一 个 客户 端 通常 会 在 很 长 时 间 内 连接 到 一 台 服 
务 器 上 。 

尽管 DNS 没有 对 单个 客户 端的 事务 进行 跨 服 务 器 副本 的 处 理 ， 但 在 分 散 多 个 客户 端 
的 总 负荷 方面 它 做 得 相当 好 。 只 要 有 大 量具 有 相同 需求 的 客户 端 ， 就 可 以 将 负载 合 
理 地 分 散 到 各 个 服务 器 上 去 。 





5. 其 他 基于 DNS 的 重 定向 算法 
我 们 已 经 讨论 了 DNS 是 如 何 对 每 条 请 求 进行 地 址 列表 轮转 的 。 但 是 ， 有 些 增强 的 
DNS 服务 器 会 使 用 其 他 一 些 技 术 来 选择 地 址 的 顺序 。 


有 些 DNS 服务 器 会 跟踪 Web 服务 器 上 的 负载 ， 将 负载 最 轻 的 Web 服务 器 放 在 
列表 的 最 前 面 。 


° 邻接 路 由 算法 
Web 服务 器 集群 在 地 理 上 分 散 时 ，DNS 服务 器 会 尝试 着 将 用 户 导向 最 近 的 Web 
服务 器 。 





° 故障 屏蔽 算法 
DNS 服务 器 可 以 监视 网 络 的 状况 ， 并 将 请 求 绕 过 出 现 服务 中 断 或 其 他 故障 的 
地 方 。 


—— 


通常 ， 运 行 复杂 服务 器 跟踪 算法 的 DNS 服务 器 就 是 在 内 容 提供 者 控制 之 下 的 一 个 权 
威 服务 器 (参见 图 20-4). 

有 一 些 分 布 式 主机 服务 会 使 用 这 个 DNS 重 定向 模型 。 对 于 那些 要 查找 附近 服务 器 的 
服务 来 说 ， 这 个 模型 的 一 个 缺点 就 是 ,权威 DNS 服务 器 只 能 用 本 地 DNS 服务 器 的 
IP 地 址 ， 而 不 能 用 客户 端的 IP 地址 来 做 决定 。 
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20-4 涉及 权威 服务 器 的 DNS 请 求 


20.4.3 Æ 


在 任 播 寻 址 中 ， 几 个 地 理 上 分 散 的 Web 服务 器 拥有 完全 相同 的 IP 地 址 ， 而 且 会 通 
过 骨干 路 由 器 的 “最 短路 径 ” 路 由 功能 将 客户 端的 请 求 发 送 给 离 它 最 近 的 服务 器 。 
要 使 这 种 方法 工作 ， 每 台 服 务 器 都 要 向 邻近 的 骨干 路 由 器 广告 ， 表 明 自 己 是 一 台 路 
His. Web 服务 器 会 通过 路 由 器 通信 协议 与 其 邻近 的 骨干 路 由 器 通信 。 骨 干 路 由 器 
收 到 发 送 给 任 播 地 址 的 分 组 时 ， 会 ( 像 平常 一 样 ) 寻找 接受 那个 IP 地 址 的 最 近 的 
“路 由 器 ”。 由 于 服务 器 是 将 自己 作为 那个 地 址 的 路 由 器 广告 出 去 的 ， 所 以 骨干 路 由 
器 会 将 分 组 发 送 给 服务 器 。 


在 图 20-5 中 ， 三 台 服 务 器 为 同一 个 IP 地 址 10.10.10.1 服务 。 洛 杉 矶 (LA) 服务 
器 将 此 地 址 广告 给 LA 路 由 器 ,纽约 (NY) 服务 器 同样 将 此 地 址 广告 给 NY 路 由 
器 ， 以 此 类 推 。 服 务 器 会 通过 路 由 器 协议 与 路 由 器 进行 通信 。 路 由 器 会 将 目标 为 
10.10.10.1 的 客户 端 请 求 自动 地 转发 到 广告 这 个 地 址 的 最 近 的 服务 器 上 去 。 在 图 
20-5 中 ， 对 IP 地 址 10.10.10.1 的 请 求 会 被 转发 给 服务 器 3。 


任 播 寻 址 仍然 是 项 实验 性 技术 。 要 使 用 分 布 式 任 播 技 术 ， 服 务 器 就 必须 “使 用 路 由 
器 语言 ”， 而 且 路 由 器 必须 能 够 处 理 可 能 出 现 的 地 址 冲突 ， 因 为 因特网 地 址 基本 上 
都 是 假定 一 台 服 务 器 只 有 一 个 地 址 的 。( 如 果 没 有 正确 地 实现 ， 可 能 会 造成 很 严重 的 
“路 由 泄露 ”问题 。) 分 布 式 任 播 是 一 种 新 兴 技术 ， 可 以 为 那些 自己 控制 骨干 网 络 的 
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内 容 提 供 商 提供 一 种 解决 方案 。 





www.joes-hardware.com 


服务 器 1 









































i: 边缘 网 络 www.joes-hardware.com OE 
— ul 10.10.10.1 
服务 器 2 
10.10.10.1 
服务 器 3 











20-5 ”分布 式 任 播 寻 址 


20.4.4 IP MAC 转 发 

在 以 太 网 中 ，HTTP 报 文 都 是 以 携带 地 址 的 数据 分 组 的 形式 发 送 的 。 每 个 分 组 都 有 
一 个 第 四 层 地 址 ， 由 源 卫 地 址 、 目 的 IP 地 址 以 及 TCP 端口 号 组 成 ， 它 是 第 四 层 设 
备 所 关注 的 地 址 。 每 个 分 组 还 有 一 个 第 二 层 地 址 ，MAC (Media Access Control, HE 
Wy) 地 址 ， 这 是 第 二 层 设 备 〈 通 常 是 交换 机 和 Hub) 所 关注 的 地 址 。 第 二 
层 设 备 的 任务 是 接收 具有 特定 输入 MAC 地 址 的 分 组 ， 然 后 将 其 转发 到 特定 的 输出 
MAC 地 址 上 去 。 


比如 ， 图 20-6 中 交换 机 的 程序 会 将 来 自 MAC 地 址 MAC3 的 所 有 流量 都 发 送 到 
MAC 地 址 MAC4 上 去 。 








458 








Hub MAC3 交换 机 MAC4 
网 关 MAC5 


客户 端 MAC1 | ' 


客户 端 MAC2 











图 20-6 第 二 层 交换 机 会 将 客户 端 请 求 发 送 给 一 个 网 关 
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第 四 层 交 换 机 能 够 检测 出 第 四 层 地 址 (IP 地 址 和 TCP 端口 号 ) ， 并 据 此 来 选择 路 由 。 
比如 ， 一 台 第 四 层 交 换 机 可 以 将 所 有 目的 为 端口 80 的 Web 流量 都 发 送 到 某 个 代理 
上 去 。 在 图 20-7 中 ， 编 写 交 换 机 程序 ， 将 MAC3 上 所 有 端口 80 的 流量 都 转发 到 
MAC6 (代理 缓存 ) 上 去 。MAC3 上 所 有 其 他 流量 都 会 被 转发 到 MAC5 EK. 






















客户 端 MAC1 
3 , 通 向 因特网 
Hub MAC3*, 交换 机 MAC4 
— ` 网 关 MAC5 
^mi 端口 80 的 流量 : 
客户 端 MAC2 p 
E 
s - 
代理 缓存 MAC6 














20-7 ”通过 第 四 层 交 换 机 进行 MAC 转发 


通常 ， 如 果 缓 存 中 有 所 请 求 的 HTTP 内 容 ， 而 且 是 新 鲜 的 ， 那 么 就 由 代理 缓存 来 提 
供 内 容 ， 否 则 ， 代 理 缓 存 就 会 代表 客户 端 向 此 内 容 的 原始 服务 器 发 送 一 条 HTTP 请 
求 。 交 换 机 会 将 端口 80 的 请 求 从 代理 (MAC6) 发 送 给 因特网 网 关 (MAC5 ) 。 


支持 MAC 转发 的 第 四 层 交 换 机 通常 会 将 请 求 转发 给 几 个 代理 缓存 ， 并 在 它们 之 间 
平衡 负载 。 类 似 地 ， 也 可 以 将 HTTP 流量 转发 给 备用 HTTP 服务 器 。 


因为 MAC 地 址 转发 只 是 点 对 点 的 ， 所 以 服务 器 或 代理 只 能 位 于 离 交 换 机 一 跳远 的 
地 方 。 


20.4.5 ”IP 地址 转发 

在 IP 地 址 转发 中 ,交换 机 或 其 他 第 四 层 设 备 会 检测 输入 分 组 中 的 TCP/IP 地 址 ， 并 
通过 修改 目的 IP 地 址 (不 是 目的 MAC 地址) ， 对 分 组 进行 相应 的 转发 。 与 MAC 转 
发 相 比 ， 这 么 做 的 优点 是 目标 服务 器 不 需要 位 于 一 跳远 的 地 方 ， 只 需要 位 于 交换 机 
的 上 游 就 行 了 ， 而 且 通 常 第 三 层 的 端 到 端 因特网 路 由 都 会 将 分 组 传送 到 正确 的 地 方 。 
这 种 类 型 的 转发 也 被 称 为 NAT (Network Address Translation， 网 络 地 址 转换 ) 。 

但 还 有 一 个 问题 ， 就 是 对 称 路 由 。 从 客户 端 接受 输入 TCP 连接 的 交换 机 管理 着 连 
E; 交换 机 必须 通过 那 条 TCP 连接 将 响应 回 送 给 客户 端 。 这 样 ， 所 有 来 自 目标 服务 
器 或 代理 的 响应 都 必须 返回 给 交换 机 (参见 图 20-8). 
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目标 代理 ox e A 


i 骨干 网 络 £ B 
Li. ; Joe 的 服务 器 





Joe 的 边 
缘 网 络 





客户 端 客 户 端 
边缘 网 络 








20-8 对 代理 缓存 或 镜像 Web 服务 器 进行 IP 地 址 转发 的 交换 机 
有 以 下 两 种 方式 可 以 控制 响应 的 返回 路 径 。 








将 分 组 的 源 TP 地 址 改 成 交换 机 的 耳 地 址 。 通 过 这 种 方式 ， 无 论 交 换 机 和 服务 器 
之 间 采 用 何 种 网 络 配置 ， 响 应 分 组 都 会 被 发 送 给 交换 机 。 这 种 方式 被 称 为 完全 
NAT (full NAT), FHI IP 转发 设备 会 对 目的 卫 地 址 和 源 IP 地 址 都 进行 转换 。 
图 20-9 显示 了 对 一 条 TCP/IP 数据 报 进行 完全 NAT 的 效果 。 这 样 做 的 缺点 是 服 
务 器 不 知道 客户 端的 IP 地址 ， 那 种 需要 认证 和 计 费 的 Web 服务 器 无 法 获知 客户 
端的 IP 地 址 。 











如 果 源 IP 地 址 仍然 是 客户 端的 IP 地 址 ， 就 要 确保 (从 硬件 的 角度 来 看 ) 没有 从 
服务 器 到 客户 端的 直接 路 由 ( 绕 过 交换 机 的 )。 这 种 方式 有 时 被 称 为 半 NAT (half 
NAT)。 这 种 方法 的 优点 是 服务 器 知道 客户 端的 IP 地 址 ， 但 缺点 是 要 对 客户 端 和 
服务 器 之 间 的 整个 网 络 都 有 某 种 程度 的 控制 。 














来 自 : 客户 端 通过 网 络 地 址 来 自 : NAT 设 备 
Td: E 3.3.3.3 
80 ggota | PEET 人。 so RAE: 代理 
20700 4.4.4.4 
80 80 
Os » aeneo 
— = 2 = 














20-9 ”一 条 TCP/IP 数据 报 的 完全 NAT 
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20.4.6 ”网 元 控制 协议 

NECP (Network Element Control Protocol， 网 元 控制 协议 ) 允许 网 元 (NE， 路 由 器 
和 交换 机 等 负责 转发 IP 分 组 的 设备 ) 与 服务 器 元 素 (SE, Web 服务 器 和 代理 缓存 
等 提供 应 用 层 请 求 的 设备 ) 进行 交互 。NECP 并 未 显 式 提供 对 负载 均衡 的 支持 ， 它 
只 是 为 SE 提供 了 一 种 发 送 负 载 均衡 信息 给 NE 的 方式 ， 这样 NE 就 可 以 在 它 认为 
合适 的 情况 下 进行 负载 均衡 了 。 与 WCCP 一 样 ，NECP 也 提供 了 几 种 转发 分 组 的 方 
式 : MAC 转发 、GRE 封装 和 NAT。 


NECP 支持 例外 。SE 可 以 决定 它 不 能 为 某 些 特定 的 源 IP 地 址 提供 服务 ， 并 将 这 些 
地 址 发 送 给 NE。 然后 ，NE 可 以 将 来 自 这 些 IP 地 址 的 请 求 转发 给 原始 服务 器 。 

报 文 

K 20-3 描述 了 NECP 报 文 。 








表 20-3 NECP 报 文 
































jd L x 发 送 者 含 义 

NECP_NOOP 不 操作 一 一 什么 都 不 做 

NECP_INIT SE SE 初始 化 了 与 NE 的 通信 。SE 打开 与 NE 的 
TCP 连接 后 ， 将 此 报 文 发 送 给 它 。SE 必须 知 
道 要 连接 哪个 NE 端口 

NECP_INIT_ACK NE 确认 NECP_INIT 

NECP_KEEPALIVE NE 或 SE 询问 对 等 实体 是 否 仍 然 活 跃 

NECP_KEEPALIVE_ACK NE X SE XJ keep-alive 报 文 的 应 答 

NECP_START SE SE 说 :“ 我 在 这 里 ， 做 好 接受 网 络 流量 的 准备 
了 。 ”可 以 指定 端口 

NECP_START_ACK NE 确认 NECP_START 

NECP_STOP SE SE 告诉 NE“ 停 止 向 我 发 送 流 量 。” 

NECP_STOP_ACK NE NE 确认 NECP_STOP 操作 

NECP_EXCEPTION_ADD SE SE 说 要 向 NE 列表 中 添加 一 个 或 多 个 例外 。 例 
外 可 以 基于 源 了 下 地 址 、 目 的 卫 地 址 、( 卫 了 之 
上 的 ) 协议 ， 或 者 端口 

NECP_EXCEPTION_ADD_ACK NE 对 NECP_EXCEPTION_ADD 进行 证 实 

NECP_EXCEPTION_DEL SE 请 求 NE 从 列表 中 删除 一 个 或 多 个 例外 

NECP_EXCEPTION_DEL_ACK NE 对 NECP_EXCEPTION_DEL 进行 证 实 

NECP_EXCEPTION_RESET SE 请 求 NE 删除 整个 例外 列表 

NECP EXCEPTION RESET ACK NE 对 NECP. EXCEPTION RESET 进行 证 实 

NECP EXCEPTION. QUERY SE 查询 NE 的 整个 例外 列表 

NECP_EXCEPTION_RESP NE 响应 例外 查询 
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20.5 ”代理 的 重 定向 方法 
到 目前 为 止 ， 我 们 已 经 讨论 过 通用 的 重 定向 方法 了 。 (出 于 潜在 的 安全 考虑 ) 内 容 也 


可 能 需要 通过 各 种 代理 来 访问 ， 或 者 网 络 中 可 能 有 一 个 客户 端 可 利用 的 代理 缓存 。 
(因为 获取 已 缓存 的 内 容 很 可 能 要 比 直 接连 接 到 原始 服务 器 快 得 多 。) 


但 Web 浏览 器 客户 端 怎 么 才 会 知道 要 连接 到 某 个 代理 上 去 呢 ? 可 以 用 3 种 方法 来 判断 
显 式 的 浏览 器 配置 ， 动 态 自 动 配置 以 及 透明 拦截 。 我 们 会 在 本 节 中 讨论 这 3 种 技术 。 


代理 可 以 顺 次 将 客户 端 请 求 重 定向 到 另 一 个 代理 上 去 。 比 如 ， 没 有 缓存 此 内 容 的 代 
理 缓存 可 能 会 选择 将 客户 端 重 定向 到 另 一 个 代理 缓存 。 这 样 一 来 ， 响 应 就 会 来 自 与 
客户 端 请 求 资源 的 地 址 不 同 的 另外 一 个 地 址 ， 所 以 ， 我 们 还 会 讨论 几 种 用 于 对 等 代 
pH — 缓存 重 定向 的 协议 : ICP, CARP 和 HTCP, 























20.5.1 显 式 浏览 器 配置 


大 多 数 浏览 器 都 可 以 配置 为 从 代理 服务 器 上 获 器 中 有 一 个 下 拉 菜 单 ， 
用 户 可 以 在 这 个 菜单 中 输入 代理 的 名 字 或 IP 地 址 以 及 端口 号 。 ;然后 浏览 器 的 所 有 请 
求 都 可 以 发 送 给 这 个 代理 。 有 些 服务 提供 商 不 允许 用 户 配置 普通 浏览 器 来 使 用 代理 ， 
它们 会 要 求 用 户 下 载 事先 配置 好 的 浏览 器 。 这 些 浏览 器 知道 所 要 使 用 的 代理 的 地 址 。 


显 式 浏览 器 配置 有 以 下 两 个 主要 的 缺点 。 


° 配置 为 使 用 代理 的 浏览 器 ， 即 使 在 代理 无 法 响应 的 情况 下 ， 也 不 会 去 联系 原始 服 
务 器 。 如 果 代 理 月 涡 了 ,或 者 没有 正确 配置 浏览 器 ,用 户 就 会 遇 到 连接 方面 的 问题 。 

° 对 网 络 架 构 进行 修改 ， 并 将 这 些 修改 通知 给 所 有 的 终端 用 户 都 是 很 困难 的 。 如 果 
服务 提供 商 要 添加 更 多 的 代理 服务 器 ， 或 者 使 其 中 一 些 退 出 服务 ， 用 户 都 要 修改 
浏览 器 代理 设置 。 


20.5.2 ”代理 自动 配置 
显 式 配置 浏览 器 使 其 联系 特定 的 代理 ， 这 样 会 限制 网 络 架 构 方 面 的 变动 ， 因 为 它 是 
靠 用 户 来 介入 并 重新 配置 浏览 器 的 。 自 动 配置 方式 可 以 动态 配置 浏览 器 ， 连 接 到 
正确 的 代理 服务 器 ， 以 解决 这 个 问题 。 这 种 方法 已 经 实现 了 ， 被 称 为 代理 自动 配 
置 (PAC) 协议 。PAC 是 网 景 公 司 定义 的 ， 网 景 公司 的 Navigator 和 微软 的 Inernet 
Explorer 浏览 器 都 支持 此 协议 。 


PAC 的 基本 思想 是 让 浏览 器 去 获取 一 个 称 为 PAC 的 特殊 文件 ， 这 个 文件 说 明了 每 
个 URL 所 关联 的 代理 。 必 须 配 置 浏览 器 ， 为 这 个 PAC 文件 关联 一 个 特定 的 服务 器 
这 样 ， 浏 览 器 每 次 重启 的 时 候 都 可 以 获取 这 个 PAC 文件 了 。 
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PAC 文件 是 个 JavaScript 文件 ， 其 中 必须 定义 函数 : 
function FindProxyForURL(url, host) 
如 下 所 示 ， 浏 览 器 要 为 请 求 的 每 条 URL 调用 这 个 函数 : 


return value = FindProxyForURL(url of request, host in url); 


其 返回 值 为 一 个 字符 串 ， 用 来 说 明 浏 览 器 应 该 到 哪里 请 求 这 个 URL。 返 回 值 可 以 是 
所 关联 的 代理 名 称 列表 (比如 ，PROXY a a domain.com, PROXY proxy2. 
domain.com)， 或 者 是 字符 串 "DIRECT", iX FAF E Ua HH D V e v 1 8 JF Pr £f BJ 
代理 ， 直 接连 接 原 始 服务 器 


图 20-10 给 出 了 浏览 器 对 PAC 文 件 的 请 求 以 及 响应 此 请 求 的 操作 顺序 。 在 本 
例 中 ， 服 务 器 回 送 了 带 有 JavaScript 程 序 的 PAC 文件 。JavaScript 程 序 中 有 一 
个 FindProxyForURL 函数 ， 用 来 告知 浏览 器 ， 如 果 所 请 求 的 URL 的 主机 位 于 
netscape.com 域 中 ， 就 直接 与 原始 服务 器 联系 ， 所 有 其 他 请 求 都 连接 到 proxy1.joes- 
cache.com。 浏 览 器 会 为 它 所 请 求 的 每 个 URL 调用 这 个 函数 ， 并 根据 此 函数 返回 的 
结果 进行 连接 。 











usss x 
ir d 
文件 发 给 我 。 Š PAC 服 务 器 





Y 
HTTP/1.0 200 OK i á 
Content-type: apps denn ae ns-proxy-autoconfi. 
Content-length: ° 


function FindProxyForURL(url,host) 


if (dnsDomain(host, " .netscape.com") 
UAR "DIRECT"; 





























浏览 器 ° l 
i i etin? "PROXY proxyi.joes-cache.com:8080; DIRECT"; 
Ñ 发 入 netscape. 如 果 代理 H, pn 
求 会 直接 发 送 给 服务 器 。 SRE, ION T 
达 ， 束 直 接连 接 原 始 服务 器 
因特网 二 > 
原始 服务 器 






对 所 有 其 他 域 的 请 求 都 发 送 


给 proxyl.cachel.com 。 














20310 ”代理 自动 配置 
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PAC 协议 是 相当 强大 的 : JavaScript 程序 可 以 请 求 浏览 器 根据 大 量 与 主机 名 相关 的 
参数 来 选择 代理 ， 比 如 DNS 地 址 和 子 网 ， 甚 至 星期 几 或 具体 时 间 。 只 要 服务 器 中 的 
PAC 文件 保持 更 新 ， 能 反映 代理 位 置 的 变化 ，PAC 就 允许 浏览 器 根据 网 络 结构 的 变 
化 自动 与 合适 的 代理 进行 联系 。PAC 存在 的 主要 问题 是 必须 要 对 浏览 器 进行 配置 , 
让 它 知道 要 从 哪个 服务 器 获取 PAC 文件 ， 因 此 它 就 是 一 个 全 自动 配置 的 系统 。 下 一 
节 讨 论 的 WPAD 解决 了 这 个 问题 。 





就 像 那些 预 配置 浏览 器 一 样 ， 现 在 一 些 主要 的 ISP 都 在 使 用 PAC。 


20.5.8 ”Web 代理 自动 发 现 协议 

WPAD (Web 代理 自动 发 现 协 议 ) 的 目标 是 在 不 要 求 终端 用 户 手 工 配 置 代理 设置 ， 
而 且 不 依赖 透明 流量 拦截 的 情况 下 ， 为 Web 浏览 器 提供 一 种 发 现 并 使 用 附近 代理 的 
方式 。 由 于 可 供 选 择 的 发 现 协议 有 很 多 ， 而 且 不 同 浏 览 器 的 代理 使 用 配置 也 存在 差 
异 ， 因 此 定义 Web 代理 自动 发 现 协议 时 ， 普 通 的 问题 会 被 复杂 化 。 











本 节 包 含 了 一 个 经 过 缩 略 ， 且 重新 组 织 过 的 WPAD 因特网 草案 版 本 。 现 在 ， 这 个 草 
案 是 作为 IETF 的 Web 中 间 人 工作 组 的 一 部 分 开发 的 。 





1. PAC 文 件 自 动 发 现 

WPAD 允许 HTTP 客户 端 定位 一 个 PAC 文件 ， 并 使 用 这 个 PAC 文件 找到 适当 的 代 
理 服 务 器 的 名 字 。WPAD 不 能 直接 确定 代理 服务 器 的 名 字 ， 因 为 这 样 就 无 法 使 用 
PAC 文件 提供 的 附加 功能 了 (负载 均衡 ， 请 求 路 由 到 一 组 服务 器 上 去 ， 故 障 时 自动 
转移 到 备用 代理 服务 器 等 ) 。 








如 图 20-11 所 示 ，WPAD 协议 发 现 了 PAC 文件 URL， 这 个 URL 也 被 称 为 配置 URL 
(CURL)。PAC 文件 执行 了 一 个 JavaScript 程序 ， 这 个 程序 会 返回 合适 的 代理 服务 
器 地 址 。 


实现 WPAD 协议 的 HTTP 客户 端 : 


* 用 WPAD 找到 PAC 文件 的 CURL; 

。 根据 这 个 CURL 获取 PAC 文件 (又 名 配置 文件 或 CFILE) ; 
。 执行 PAC 文件 来 确定 代理 服务 器 ， 

° E PAC 文件 返回 的 那个 代理 服务 器 发 送 HTTP 请 求 。 
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(b) 获取 PAC 文 件 








P NOS 


原始 服务 器 





ja@WPAD，，(c) 通过 代理 


Y RM ;访问 服务 器 
leases x MEE. 
HTTP Pu 











20-11 WPAD 确定 了 PAC URL, IX PAC 文件 确定 了 代理 服务 器 


2. WPAD 算 法 

WPAD 使 用 了 一 系列 资源 发 现 技术 来 确定 适当 的 PAC 文件 CURL。 并 不 是 所 有 的 
组 织 都 可 以 使 用 所 有 技术 的 ， 所 以 WPAD 指定 了 多 种 发 现 技 术 。 在 成 功 获 得 CURL 
之 前 ，WPAD 客户 端 会 一 个 个 地 尝试 每 种 技术 。 


当前 的 WPAD 规范 按 序 定义 了 下 列 技术 : 


* DHCP (动态 主机 配置 协议 ) ; 

° SLP (服务 定位 协议 ); 

。 DNS 知名 主机 名 ， 

° DNS SRV itk; 

。 DNS TXT 记录 中 提供 的 服务 URL, 


在 这 5 种 机 制 中 ， 要 求 WPAD 客户 端 必须 支持 DHCP 和 DNS 知名 主机 名 技术 。 我 
们 会 在 后 继 小 节 中 提供 更 多 的 细节 。 

WPAD 客户 端 会 按 顺 序 用 上 面 提供 的 发 现 机 制 发 送 一 系列 资源 发 现 请 求 。 客 户 端 只 
会 尝试 它们 所 支持 的 机 制 。 只 要 某 次 发 现 尝试 成 功 了 ， 客 户 端 就 会 用 得 到 的 信息 来 
构建 PAC CURL, 








如 果 从 那个 CURL 上 成 功 获 取 到 PAC 文件 ， 这 个 过 程 就 结束 了 。 如 果 没 有 ， 客 户 
端 就 从 它 在 预定 义 的 资源 发 现 请 求 系列 里 中 断 的 地 方 开始 恢复 。 如 果 尝 试 了 所 有 的 
发 现 机 制 之 后 ， 都 没有 获取 到 PAC 文件 ，WPAD 协议 就 失败 了 ， 客 户 端 会 配置 为 
不 使 用 代理 服务 器 。 


客户 端 首先 会 尝试 DHCP， 然 后 是 SLP。 如 果 没 有 获取 到 PAC 文件 ， 客 户 端 会 继续 
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执行 那些 基于 DNS 的 机 制 。 


客户 端 会 在 DNS SRV、 知 名 主机 名 和 DNS TXT 记录 等 方法 中 循环 多 次 。 每 次 都 使 
DNS 查询 的 QNAME 变 得 越 来 越 不 具体 。 通 过 这 种 方式 ， 客 户 端 就 可 以 定位 出 尽 可 
能 具体 的 配置 信息 ， 但 也 可 能 会 转 而 使 用 一 些 不 太 有 具体 的 信息 。 每 次 DNS 查找 都 会 
在 QNAME 前 加 上 wpad， 用 以 说 明 请 求 的 资源 类 型 。 





25 [J£ X: BL 4 7J johns-desktop.development.foo.com 的 客户 端 。 下 面 是 一 个 完整 的 
WPAD 客户 端 会 执行 的 发 现 尝试 顺序 : 


* DHCP; 

° SLP; 

° 用 QNAME=wpad.development.foo.com 进行 DNS A 查找 ; 

° 用 QNAME=wpad.development.foo.com 进行 DNS SRV 查找 ， 
° 用 QNAME=wpad.development.foo.com 进行 DNS TXT 查找 ， 
° 用 QNAME=wpad.foo.com 进行 DNS A 查找 ， 

° 用 QNAME=wpad.foo.com 进行 DNS SRV 查找 ; 

° 用 QNAME=wpad.foo.com 进行 DNS TXT 查找 。 








说 明 整 个 操作 过 程 的 详细 伪 代 码 请 参见 WPAD 规范 。 后 面 的 小 节 将 讨论 两 种 必 备 
机 制 一 一 DHCP 和 DNS A 查找 。 有 关 CURL 发 现 方法 的 其 他 详细 内 容 参 见 WPAD 
规范 。 





3. 用 DHCP 进 行 CURL 发 现 

要 使 用 这 种 机 制 ， 就 必须 将 CURL 存储 在 WPAD 客户 端 可 以 查询 的 DHCP 服务 器 
E. WPAD 客户 端 可 以 通过 向 DHCP 服务 器 发 送 DHCP 查询 来 获取 CURL, (如 果 
DHCP 服务 器 中 配置 了 这 种 信息 ,) 就 可 以 在 DHCP 可 选 代 码 252 中 获取 CURL, 
所 有 WPAD 客户 端 实现 都 必须 支持 DHCP, RFC 2131 详细 介绍 了 DHCP 协议 。 现 
存 的 DHCP 选项 列表 参见 RFC 2132, 

















如 果 WPAD 客户 端 已 经 在 其 初始 化 过 程 中 执行 了 DHCP 查询 ，DHCP 服务 器 可 
能 就 已 经 提供 了 那个 值 。 如 果 无 法 通过 客户 端 OS API 获 得 这 个 值 ， 客 户 端 就 向 
DHCP 服务 器 发 送 一 条 DHCPINFORM 报 文 ， 以 获取 这 个 值 。 

WPAD 的 DHCP 可 选 代 码 252 为 STRING 类 型 ， 可 以 是 任意 长 度 。 这 个 字符 串 中 
包含 了 一 个 指向 适当 PAC 文件 的 URL。 比 如 : 


"http://server.domain/proxyconfig.pac" 








mit 
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4. DNS A 记录 查找 

要 让 这 种 机 制 工作 ， 就 必须 将 合适 的 代理 服务 器 的 IP 地 址 存储 在 WPAD 客户 端 可 
以 查询 的 DNS 服务 器 上 。WPAD 客户 端 会 向 DNS 服务 器 发 送 一 个 A 记录 查询 ， 以 
获取 CURL。 成 功 查 询 的 结果 中 会 包含 合适 的 代理 服务 器 的 IP 地 址 。 

WPAD 客户 端 实现 必须 支持 这 种 机 制 。 这 应 该 是 很 简单 的 ， 因 为 它 只 要 求 基本 的 
DNS A 记录 查找 。 用 知名 DNS 别名 进行 资源 发 现 的 详细 过 程 请 参见 RFC 2219。 对 
WPAD 来 说 ， 规 范 使 用 了 “wpad” 的 “知名 别名 ”来 进行 Web 代理 自动 发 现 。 


客户 端 执行 了 下 列 DNS 查找 : 











QNAME=wpad.TGTDOM., QCLASS=IN, QTYPE=A 


成 功 的 查找 中 包含 了 IP 地 址 ，WPAD 客户 端 根据 这 个 地 址 构建 CURL, 


5. 获取 PAC 文 件 

只 要 创建 了 候选 的 CURL，WPAD 客户 端 通常 都 会 向 CURL 发 送 一 条 GET 请 求 。 
发 出 请 求 时 ，WPAD 客户 端 必须 要 发 送 一 些 带 有 适当 CFILE 格式 信息 的 accept Ë 
部 ， 这 些 CFILE 格式 都 是 它们 所 能 处 理 的 。 比 如 : 














Accept: application/x-ns-proxy-autoconfig 





而 且 ， 如 果 CURL 的 结果 是 要 进行 重 定向 ， 客 户 端 就 必须 跟随 这 些 重 定向 到 其 最 终 
目的 地 。 


6. 何 时 执行 WPAD 

至 少 要 在 出 现 以 下 情况 的 时 候 进 行 Web 代理 自动 发 现 。 

° 在 Web 客户 端 启动 的 时 候 一 一 WPAD 只 在 第 一 个 实例 启动 的 时 候 执 行 。 后 面 的 
实例 会 继承 这 种 设置 。 

° 只 要 有 来 自 网 络 栈 的 通知 ， 就 说 明 客户 端 主机 的 IP 地 址 改变 了 。 

哪个 选项 在 其 环境 中 有 意义 ，Web 客户 端 就 可 以 选择 哪个 。 而 且 ， 客 户 端 还 必须 根 

据 HTTP 的 过 期 时 间 ， 为 之 前 下 载 的 PAC 文件 的 过 期 时 间 堂 试 一 个 发 现 周期 。PAC 

文件 过 期 时 ， 客 户 端 遵循 过 期 时 间 ， 重 新 运行 WPAD 过 程 是 很 重要 的 。 


如 果 PAC 文件 没有 提供 替换 方案 ， 在 当前 配置 的 代理 失效 的 情况 下 ， 客 户 端 还 可 以 
选择 重新 运行 WPAD 过 程 。 


只 要 客户 端 决 定 使 当前 的 PAC 文件 失效 ， 就 必须 重新 运行 整个 WPAD 协议 ， 以 确 
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保 它 会 发 现 当 前 正确 的 CURL。 有 具体 来 说 ， 就 是 协议 不 能 有 条 件 地 获取 PAC 文件 的 
If-Modified-Since. 

WPAD 协议 广播 与 /或 多 播 通 信 可 能 需要 大 量 的 网 络 环 回 时 间 。WPAD 协议 的 激活 
频率 不 应 该 高 于 上 面 指定 的 频率 (比如 在 每 次 获取 URL 时 进行 一 次 )。 


7. WPAD 欺 骗 

WPAD RJ IE 5 实现 允许 Web 客户 端 在 没有 用 户 干预 的 情况 下 ， 自 动 检测 代理 设 
置 。WPAD 使 用 的 算法 会 在 全 称 域名 前 加 上 主机 名 “wpad”， 并 会 逐渐 删除 子 域 
名 ， 直 到 它 找到 能 够 响应 主机 名 的 WPAD 服务 器 ， 或 到 达 第 三 级 域名 。 比 如 ， 域 
a.b.microsoft.com 中 的 Web 客户 端 会 先 查 询 wpad.a.b.microsoft, wpad.b.microsoft. 





com， 然 后 再 查询 wpad.microsoft.com, 





这 样 会 暴露 出 一 个 安全 漏洞 ， 因 为 在 国际 应 用 〈 及 其 他 特定 的 配置 ) 中 ， 第 三 级 域 
名 可 能 是 不 可 信 的 。 恶 意 用 户 可 以 建立 一 个 WPAD 服务 器 ， 并 提供 他 选中 的 代理 配 
置 命令 。 后 继 (5.01 及 以 后 ) 的 正版 本 修正 了 这 个 问题 。 





8. 超时 

WPAD 会 经 过 多 个 级 别 的 发 现 ， 客 户 端 必须 确保 每 个 阶段 都 有 时 限 保证 。 可 能 的 情 
况 下 ， 将 每 个 阶段 都 限制 在 10 秒 以 内 是 比较 合理 的 ， 但 实现 者 可 能 会 选择 其 他 更 适 
合 其 网 络 特性 的 值 。 比 如 ， 运 行 在 无 线 网 络 上 的 设备 实现 ， 由 于 带宽 较 低 或 时 延 较 
长 ， 可 能 就 会 使 用 更 大 的 时 限 。 





9. 管理 者 的 考虑 

管理 者 至 少 应 该 在 其 环境 中 配置 DHCP 或 DNS A 记录 查找 方式 中 的 一 种 ， 因 为 只 
有 这 两 种 方式 是 所 有 兼容 客户 端 都 必须 实现 的 。 除 此 之 外 ， 通 过 配置 环境 使 其 支持 
搜索 列表 中 顺序 靠 前 的 机 制 ， 可 以 缩短 客户 端的 启动 时 间 。 

使 用 这 种 协议 结构 的 主要 动力 之 一 是 支持 客户 端 定 位 附近 的 代理 服务 器 。 在 很 多 环 
竞 中 ， 都 会 有 多 个 代理 服务 器 (工作 组 、 公 司 网 关 、ISP、 上 骨干 网 等 )。 


在 WPAD 框架 结构 中 ， 可 以 在 很 多 地 方 确 定 代 理 服务 器 是 否 “ 邻 近 ”。 














。 不 同 子 网 的 DHCP 服务 器 会 返回 不 同 的 答案 。 还 可 以 根据 客户 端的 cipaddr F 
段 或 客户 端 标识 符 选 项 作出 决定 。 

。 可 以 对 DNS 服务 器 进行 配置 ， 使 其 为 不 同 的 域名 后 缀 (比如 ,QNAME wpad. 
marketing.bigcorp.com 和 wpad.development.bigcorp.com) 返回 不 同 的 SRV/A/ 
TXT 资源 记录 (RR). 
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。 处 理 CURL 请 求 的 Web 服务 器 会 根据 User-Agent B ub. Accept 首部 、 客 户 
端 IP 地 址 / 子 网 /主机 和 名、 附近 代理 服务 器 的 拓扑 分 布 等 作出 决定 。 可 能 由 处 理 
CURL 的 CGI 可 执行 文件 进行 这 种 处 理 。 如 前 所 述 ， 其 至 可 能 是 某 个 处 理 CURL 
请 求 的 代理 服务 器 来 作出 这 些 决 定 。 

° PAC 文 件 的 表达 能 力 可 能 足以 在 客户 端 运 行 时 从 一 组 候选 的 代理 服务 器 中 进行 选 
择 。CARP 就 是 在 此 基础 上 实现 缓存 阵列 的 。PAC 文件 可 以 计算 出 到 一 组 候选 代 
理 服务 器 的 网 络 距 离 (或 其 他 合理 的 度量 方式 ) ,并 选择 “最 近 ” 或 “响应 最 积极 ” 
的 服务 器 ， 这 并 不 是 什么 不 可 思议 的 事情 。 


ry p Et 
20.6 ”缓存 重 定 向 方法 
我 们 已 经 讨论 过 一 些 将 流量 重 定向 到 通用 服务 器 的 技术 ， 以 及 一 些 将 流量 导向 代理 
或 网 关 的 专用 技术 了 。 这 一 节 会 介绍 一 些 更 复杂 的 、 用 于 缓存 代理 服务 器 的 重 定向 
技术 。 这 些 技术 要 尽量 做 到 可 靠 、 高 效 且 能 感知 内 容 一 一 这 样 可 以 将 请 求 分 配 到 可 
能 包含 特定 内 容 的 位 置 上 去 ， 因 此 比 前 面 讨 论 过 的 那些 协议 更 复杂 。 














WCCP 重 定向 


Cisco 系统 公司 开发 的 WCCP 可 以 使 路 由 器 将 Web 流量 重 定向 到 代理 缓存 中 去 。 
WCCP 负责 路 由 器 和 缓存 服务 器 之 间 的 通信 ， 这 样 路 由 器 就 可 以 对 缓存 进行 验证 
(确保 它们 已 启动 且 正 在 运行 )， 在 缓存 之 间 进 行 负载 均衡 ， 并 将 特定 类 型 的 流量 发 
送 给 特定 的 缓存 了 。WCCP 版 本 2 (WCCP2) 是 个 开放 的 协议 。 这 里 我 们 会 探讨 
WCCP2, 


1. WCCP 重 定向 是 怎样 工作 的 
下 面 是 WCCP 重 定向 在 HTTP 上 工作 过 程 的 概述 (WCCP 对 其 他 协议 的 重 定向 过 程 
也 是 类 似 的 )。 


。 启动 包含 了 一 些 支持 WCCP 的 路 由 器 和 缓存 的 网 络 ， 这 些 路 由 器 和 缓存 之 间 可 
以 相互 通信 。 

° 一 组 路 由 器 及 其 目标 缓存 构成 一 个 WCCP 服务 组 。 服 务 组 的 配置 说 明了 要 将 何 
种 流量 发 往 何 处 、 流 量 是 如 何 发 送 的 以 及 如 何在 服务 组 的 缓存 之 间 进 行 负载 均衡 。 

。 如 果 服 务 组 配置 为 重 定 向 HTTP 流量 ， 服 务 组 中 的 路 由 器 就 会 将 HTTP 请 求 发 送 
给 服务 组 中 的 缓存 。 

° HTTP 请 求 抵 达 服 务 组 中 的 路 由 器 时 ， 路 由 器 会 (根据 对 请 求 IP 地 址 的 散 列 ， 或 
者 “ 掩 码 / 值 ”的 配对 策略 ) 选择 服务 组 中 的 某 个 缓存 为 请 求 提供 服务 。 
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° 路 由 器 向 缓存 发 送 请 求 分 组 ， 可 以 用 缓存 的 IP 地 址 来 封装 分 组 ， 也 可 以 通 


MAC 转发 来 实现 。 
° 如 果 缓 存 无 法 为 请 求 提 供 服务 ， 


就 将 分 组 返回 给 路 由 器 进行 普通 


。 服务 组 中 的 成 员 会 互相 交换 心跳 报 文 ， 不 断 验证 对 方 的 可 用 性 。 


2. WCCP2 报 文 


WCCP2 报 文 有 4 种 ， 如 表 20-4 所 示 。 


表 20-4 WCCP21RX. 


报 文 名 


RE 
m 
i 


前 的 转发 。 


所 承载 的 信息 





WCCP2_HERE I_AM 


WCCP2 I SEE YOU 


WCCP2 REDIRECT ASSIGN 


WCCP2 REMOVAL QUERY 


从 缓存 发 送 给 路 由 器 
































这 些 报 文告 诉 路 
报 文中 包含 了 该 缓存 的 
只 要 有 缓存 加 入 了 服务 组 ， 
文 发 送 给 组 里 所 有 的 路 由 




















器 ， 缓 存 可 以 接收 流量 。 
服务 组 的 所 有 信息 。 


它 就 会 将 这 些 报 
器 。 可 以 通过 这 些 


报 文 与 发 送 WCCP2_I_SEE_YOU 报 文 的 路 
























































由 器 进行 沟通 
从 路 由 器 发 送 给 缓存 这 些 报 文 是 对 WCCP2_HERE_I_AM 报 文 的 
响应 。 可 以 通过 这 些 报 文 对 分 组 转发 方式 、 
分 配方 法 (哪个 是 指定 的 缓存 )、 分 组 返回 
方法 和 安全 性 进行 沟通 
从 指定 的 缓存 发 送 给 路 这 些 报 文 为 负载 均衡 分 配 任务 ， 它 们 可 以 为 
器 散 列 表 负 载 均衡 发 送 桶 信息 ， 或 为 “ 掩 码 / 
值 ”负载 均衡 发 送 “ 掩 码 / 值 ”组 对 信息 
从 路 由 器 发 送 给 在 2.5x 如 果 路 由 器 没有 周期 性 地 收 到 WCCP2_ 
HERE I_AM_T 秒 内 没有 HERE L AM 报 文 ， 路 由 器 就 会 发 送 此 报 
发 送 过 WCCP2_HERE 文 ， 以 查看 是 否 应 该 将 这 个 缓存 从 服务 组 中 





I AM 报 文 的 缓存 


WCCP2 HERE I AM 的 报 文 格式 为 : 


WCCP Message Header 


Security Info Component 

Service Info Component 

Web-cache Identity Info Component 
Web-cache View Info Component 


Capability Info Component 
Command Extension Component 


( 可 选 ) 
( 可 选 ) 


WCCP2 I SEE YOU 的 报 文 格式 为 : 


WCCP Message Header 


Security Info Component 


删除 掉 。 来 自 缓存 的 正确 





响应 为 三 条 完全 相 








HERE I AM. T/10 f» 





同 的 WCCP2 HERE I AM 报 文 ， 中 间 间 隔 
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Service Info Component 

Router Identity Info Component 
Router View Info Component 
Capability Info Component (可 选 ) 
Command Extension Component (可 选 ) 


WCCP2_REDIRECT_ASSIGN 的 报 文 格式 为 : 


WCCP Message Header 

Security Info Component 

Service Info Component 

Assignment Info Component, or Alternate Assignment Component 


WCCP2_REMOVAL_QUERY 的 报 文 格式 为 : 


WCCP Message Header 
Security Info Component 
Service Info Component 
Router Query Info Component 


3. 报 文 组 件 

每 条 WCCP2 报 文 都 由 一 个 首部 和 一 些 组 件 构成 。WCCP 首部 信息 包含 报 文 类 型 
(Here I Am, I See You, Assignment 或 Removal Query), WCCP 版 本 和 报 文 长 度 
(不 包括 首部 的 长 度 ) 。 


每 个 组 件 都 以 一 个 描述 组 件 类 型 和 长 度 的 4 字 节 首部 开始 。 组 件 长 度 不 包括 组 件 首 
部 的 长 度 。 报 文 组 件 如 表 20-5 所 述 。 


表 20-5 WCCP2 报 文 组 件 


组 件 描 述 

安全 信息 包含 安全 选项 和 安全 实现 。 安 全 选项 可 以 是 : 
WCCP2 NO SECURITY (0) 
WCCP2 MD5 SECURITY (1) 
如 果 选 项 是 不 安全 的 (NO) ， 安 全 实现 字段 就 不 存在 。 如 果 选 项 为 MD5， 安 全 实 
现 字段 就 是 一 个 包含 了 报 文 校 验 和 、 服 务 组 密码 的 16 字 节 的 字段 。 密 码 不 能 超过 
8 DET 

服务 信息 描述 服务 组 。 服 务 类 型 ID 可 以 使 用 两 个 值 : 
WCCP2 SERVICE STANDARD (0) 
WCCP2 SERVICE DYNAMIC (1) 
如 果 服 务 类 型 是 标准 的 (STANDARD) ， 服 务 就 是 完全 由 服务 ID 定义 的 知名 服务 。 
HTTP 就 是 个 知名 服务 。 如 果 服 务 类 型 是 动态 的 (DYNAMIC)， 就 由 下 列 设置 来 定 
义 服务 : 优先 级 、 协 议 、 服 务 标记 (决定 是 否 散 列 ) 以 及 端 


路 由 器 身份 信息 包含 路 由 器 的 IP 地 址 和 ID， 并 (通过 IP 地址 ) 列 出 了 路 由 器 想 要 通信 的 所 有 
Web 缓存 
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组 fE 描 g 











Web 缓存 身份 信息 ”包含 了 Web 高 速 缓存 的 IP 地 址 和 重 定向 散 列表 映射 
路 由 器 视图 信息 包含 了 路 由 器 的 服务 组 视图 (路 由 器 和 缓存 的 身份 ) 
Web 缓存 视图 信息 UET Web 缓存 的 服务 组 视图 
分 配 信息 显示 了 如 何 将 Web 缓存 分 配 到 特定 的 散 列 桶 中 去 


路 由 器 查询 信息 包含 了 路 由 器 的 I 了 PP 地址、 所 要 查询 的 Web 缓存 的 地 址 以 及 服务 组 中 最 近 从 Web 
缓存 中 收 到 Here I Am 报 文 的 路 由 器 ID 


















































































































































能 力 信息 那些 需要 广告 所 支持 的 分 组 转发 方式 、 负 载 均 衡 和 分 组 返回 方式 的 路 由 器 会 使 用 
此 信息 。 那 些 要 让 路 由 器 知道 它 希 望 使 用 哪 种 方法 的 Web 缓存 也 会 使 用 此 信息 

LET 包含 了 负载 均衡 的 散 列表 分 配 信息 

分 配 图 包含 了 服务 组 的 “ 掩 码 / 值 ”设置 元 素 

命令 扩展 Web 缓存 用 它 来 告诉 路 由 器 它们 正在 关机 。 路 由 器 用 它 来 确认 缓存 是 否 关闭 

4. 服务 组 


服务 组 (service group) 由 一 组 支持 WCCP 的 路 由 器 和 缓存 组 成 ， 它 们 之 间 可 以 交 
换 WCCP 报 文 。 路 由 器 会 向 服务 组 中 的 缓存 发 送 Web 流量 。 服 务 组 的 配置 确定 了 
如 何 将 流量 分 配 到 服务 组 的 缓存 中 去 。 路 由 器 和 缓存 会 在 Here I Am fH I See You 报 
文中 交换 服务 组 的 配置 信息 。 

5. GRE 分 组 封装 

支持 WCCP 的 路 由 器 会 用 服务 器 的 IP 地 址 将 HTTP 分 组 封装 起 来 ， 将 甚 重 定 向 到 
特定 的 服务 器 上 去 。 分 组 封装 中 还 包含 了 IP 首部 的 proto 字段 ， 用 来 说 明 通用 路 
由 器 封装 (GRE)。proto 字段 的 存在 告诉 接收 代理 ， 它 有 一 个 封装 的 分 组 。 分 组 
被 封装 起 来 ， 客 户 端的 IP 地 址 就 不 会 丢失 了 。 图 20-12 显示 了 GRE 分 组 的 封装 过 程 。 





























发 往 代 理 Proto:GRE 
3.3.3.3 
i 8080 
iu à SUE : Tu a 
80 发 往 :Joe 的 服务 器 ， 穿 过 WCCE 路 由 器 — | 80 发 往 :Joe 的 服务 器 
2:227 ji 439 


80 




















20-12. WCCP 路 由 器 如 何 修改 HTTP 734883 B B3 IP 地 址 
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6. WCCP 的 负载 均衡 

除了 路 由 功能 之 外 ，WCCP 路 由 器 还 可 以 在 几 个 接收 服务 器 之 间 进 行 负载 均衡 。 
WCCP 路 由 器 及 其 接收 服务 器 会 交换 心跳 报 文 (heartbeat message), ， 以 便 相 互通 知 
自己 处 于 启动 运行 状态 。 如 果 某 特定 接收 服务 器 停止 发 送 心跳 报 文 ，WCCP 路 由 器 
就 会 将 请 求 流 量 直 接 发 送 到 因特网 上 ， 而 不 会 将 其 重 定向 给 那个 节点 。 节 点 重新 提 
供 服 务 时 ，WCCP 路 由 器 会 再 次 开始 接收 心跳 报 文 ， 并 继续 向 节点 发 送 请 求 流量 。 


20.7 因特网 缓存 协议 


ICP (因特网 缓存 协议 ) 允许 缓存 在 其 兄弟 缓存 中 查找 命中 内 容 。 如 果 某 个 缓存 中 
没有 HTTP 报 文 所 请 求 的 内 容 ， 它 可 以 查 明 内 容 是 否 在 附近 的 兄弟 缓 丰 中， 如果 在 ， 
就 从 那里 获取 内 容 ， 以 避免 查询 原始 服务 器 而 带 来 的 更 多 开销 。 可 以 把 ICP 当 作 一 
个 缓存 集群 协议 。HTTP 请 求 报 文 的 最 终 目 的 地 可 以 通过 一 系列 的 ICP 查询 确定 ， 
从 这 个 角度 来 说 ， 它 就 是 一 个 重 定向 协议 。 

ICP 是 一 个 对 象 发 现 协议 。 它 会 同时 去 询问 附近 的 多 个 缓存 ， 看 看 它们 的 缓存 中 
是 否 有 特定 的 URL。 附 近 的 缓存 如 果 有 那个 URL 的 话 ， 就 会 返回 一 个 简短 的 报 文 
HIT， 如 果 没 有 ， 就 返回 MISS。 然 后 ， 缓 存 就 可 以 打开 一 条 到 拥有 此 对 象 的 邻居 组 
存 的 HTTP 连接 了 。 


ICP 是 很 简单 直接 的 。ICP 报 文 是 一 个 以 网 络 字 节 序 表 示 的 32 位 封装 结构 ， 这 样 更 
便于 进行 解析 。 为 了 提高 效率 ， 可 以 由 UDP 数据 报 承 载 其 报 文 。UDP 是 一 种 不 可 
靠 的 因特网 协议 ， 说 明 在 传输 的 过 程 中 数据 可 能 会 被 破坏 ， 因 此 使 用 ICP 的 程序 要 
具有 超时 功能 ， 以 检测 丢失 的 数据 报 。 

下 面 简要 描述 一 下 ICP 报 文中 的 部 分 信息 。 

° Opcode (操作 码 ) 


Opcode 是 个 8 位 的 二 进 制 值 ， 用 以 描述 ICP 报 文 的 含义 。 基 本 的 opcode 包括 
ICP. OP. QUERY 请 求 报 文 和 ICP_OP_HIT 和 ICP_OP_MISS 响应 报 文 。 


。 版 本 
8 位 的 版 本 号 描述 了 ICP 协议 的 版 本 编号 。Squid 使 用 的 ICP 版 本 记录 在 RFC 
2186 第 2 版 中 。 


。 报 文 长度 
以 字 节 为 单位 的 ICP 报 文 总 长 。 因 为 只 有 16 位 ， 所 以 ICP 报 文 的 长 度 不 能 超过 
16 383 字 节 。URL 通常 都 小 于 16 KB ， 如 果 超 过 这 个 长 度 ， 很 多 Web 应 用 程序 
就 无 法 处 理 它 了 。 
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请 求 编号 
支持 ICP 的 缓存 会 用 请 求 编号 来 记录 多 个 同时 发 起 的 请 求 和 响应 。ICP 应 答 报 文 
数 必须 与 触发 应 答 的 ICP 请 求 报 文 数 相同 。 


选项 
32 位 的 ICP 选项 字段 是 个 包含 了 若干 标记 的 位 矢量 ， 这 些 标记 可 用 来 修改 ICP 
的 行为 。ICPv2 定义 了 两 个 标记 ， 这 两 个 标记 都 会 修改 ICP. OP QUERY 请 求 。 
ICP FLAG. HIT. OBJ 标记 用 来 启动 或 禁止 在 ICP 响应 中 返回 文档 数据 。ICP _ 
FLAG_SRC_RTT 标记 请 求 由 兄弟 缓存 测量 的 、 到 原始 服务 器 的 环 回 时 间 的 估 
计 值 。 








可 选 数据 
保留 了 32 位 的 可 选 数据 用 于 可 选 特性 。ICPv2 使 用 了 可 选 数据 的 低 16 位 来 装载 
从 兄弟 缓存 到 原始 服务 器 的 可 选 环 回 时 间 的 估计 值 。 


AE 36 È Ju, bk 
承载 了 报 文 发 送 端 32 位 IP 地址 的 著名 字段 。 实 际 中 并 未 使 用 。 


BÉ 

净 荷 内 容 的 变化 取决 于 报 文 的 类 型 。 对 ICP. OP. QUERY 来 说 ， 净 荷 是 一 个 4 
字 节 的 原始 请 求 端 主机 地 址 ， 后 面 跟着 一 个 由 NUL 结尾 的 URL。 对 ICP_OP_ 
HIT_OBJ 来 说 ， 净 荷 是 一 个 由 NUL 结尾 的 URL， 后 面 跟着 一 个 16 位 的 对 象 长 
度 ， 接 着 是 对 象 数据 。 


更 多 有 关 ICP 的 信息 ， 请 参见 RFC 2186 和 RFC 2187。 从 美国 应 用 网 络 研究 国 
家 实验 室 的 网 站 上 (http://www.nlanr.net/Squid/) 也 可 以 获得 一 些 很 棒 的 有 关 
ICP 和 对 等 实体 的 参考 文献 。 


20.8 缓存 阵列 路 由 协议 


代理 服务 器 通过 拦截 来 自 单个 用 户 的 请 求 ， 提 供 所 请 求 Web 对 象 的 缓存 副本 ， 极 大 
地 降低 了 发 往 因 特 网 的 流量 。 但 随 着 用 户 数 的 增加 ， 大 量 流 量 可 能 会 使 代理 服务 器 
自身 超载 。 

对 此 问题 的 一 种 解决 方案 就 是 使 用 多 个 代理 服务 器 将 负载 分 散 到 一 组 服务 器 上 。 
CARP (缓存 阵列 路 由 协议 ) 是 微软 公司 和 网 景 公司 提出 的 一 个 标准 ， 通 过 这 个 协 
议 来 管理 一 组 代理 服务 器 ， 使 这 组 代理 服务 器 对 用 户 来 说 就 像 一 个 逻辑 缓存 一 样 。 
CARP 是 ICP 的 一 个 替代 品 。CARP 和 ICP 都 允许 管理 者 通过 使 用 多 个 代理 服务 器 
来 提高 性 能 。 本 节 讨 论 了 CARP 与 ICP 的 区 别 ， 用 CARP 代替 ICP 的 优 缺 点 以 及 
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CARP 协议 实现 上 的 一 些 技术 细 市 。 


ICP 中 出 现 缓存 未 命中 时 ， 代 理 服 务 器 会 用 ICP 报 文 格式 来 查询 附近 的 缓存 ， 以 确 
E Web 对 象 是 否 存 在 。 附 近 的 缓存 会 以 HIT 或 MISS 进行 响应 ， 请 求 代 理 服务 器 会 
用 这 些 响应 来 选择 能 够 获取 到 对 人 象 的 最 适当 的 位 置 。 如 果 ICP 代理 服务 器 是 以 层次 
结构 排列 的 ， 未 命中 的 查询 会 被 提交 给 其 父 代 理 。 图 20-13 以 图 形 方式 显示 了 如 何 
通过 ICP 来 解决 命中 和 未 命 中 的 问题 











命中 或 未 命中 应 答 
S 








如 果 兄 弟 代理 都 返回 未 命中 ， 
就 去 轮 询 该 代理 的 上 一 级 代理 

















ZR G2, 因特网 











浏览 器 在 代理 父 代理 


m 





命中 或 未 命中 应 答 
(时 间 n+1) 


兄弟 代理 














20-13 ICP 查询 





注意 ， 通 过 ICP 协议 连接 起 来 的 每 个 代理 服务 器 都 是 将 内 容 进行 了 宛 余 镜像 的 独立 
缓存 服务 器 ， 这 就 说 明 在 不 同 的 代理 服务 器 之 间 复 制 Web 对 象 条 目 是 可 行 的 。 相 
Ix, HH CARP 连接 起 来 的 一 组 服务 器 会 被 当 作 一 个 大 型 的 服务 器 ， 其 中 每 个 组 件 服 
务 器 都 只 包含 全 部 缓存 文档 中 的 一 部 分 。 通 过 对 某 个 Web 对 象 的 URL 应 用 散 列 函 
数 ，CARP 就 可 以 将 此 对 象 映 射 到 特定 的 代理 服务 器 上 去 。 每 个 Web 对 象 都 有 一 个 
唯一 的 家 ， 所 以 我 们 可 以 通过 单 次 查找 确定 对 象 的 位 置 ， 而 无 须 去 查询 集合 中 配置 
的 每 个 代理 服务 器 。 图 20-14 总 结 了 CARP 重 定向 的 方式 。 
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浏览 器 缓存 代理 EI 
用 来 确定 应 该 联系 哪个 。 dE 
兄弟 代理 缓存 的 散 列 函数 %。 — um 
响应 (时 
间 n+1) 
兄弟 代理 











20-14 CARP 重 定向 


如 图 20-14 所 示 ， 作 为 客户 端 和 代理 服务 器 中 间 人 的 缓存 代理 可 以 在 各 个 代理 服务 
器 之 间 分 配 负载 ， 但 这 项 功能 也 可 以 由 客户 端 自身 提供 。 可 以 配置 Internet Explorer 
和 网 景 公 司 的 Navigator 这 样 的 商用 浏览 器 ， 以 插件 的 形式 计算 散 列 函数 ， 来 确定 
应 该 把 请 求 发 送 给 哪个 代理 服务 器 。 


CARP 对 代理 服务 器 做 出 的 确定 性 解析 说 明 它 无 须 向 所 有 邻居 发 送 查 询 ， 这 也 就 意 
味 着 这 种 方法 所 需 发 送 的 缓存 间 报 文 会 比较 少 。 随 着 越 来 越 多 的 代理 服务 器 添加 到 
配置 系统 中 来 ， 缓 存 系统 集群 的 规模 会 变 得 相当 大 。 但 CARP 的 一 个 缺点 就 是 ， 如 
果 某 个 代理 服务 器 不 可 用 了 ， 就 要 重新 修改 散 列 表 以 反映 这 种 变化 ， 而 且 必 须 重 新 
配置 现存 代理 服务 器 上 的 内 容 。 如 果 代 理 服务 器 经 常 崩溃 的 话 ， 这 么 做 的 开销 可 能 
会 很 高 。 相 反 ，ICP 代理 服务 器 中 存在 的 元 余 内 容 就 表示 它 不 需要 重新 配置 。 另 一 
个 潜在 的 问题 是 ， 由 于 CARP 是 个 新 协议 ，CARP 集群 中 可 能 不 会 包含 那些 现存 的 、 
只 运行 ICP 协议 的 代理 服务 器 。 























介绍 了 CARP 和 ICP 间 的 区 别 之 后 ， 我 们 来 详 述 一 下 CARP。CARP 重 定向 方法 要 
完成 下 列 任务 。 


。 保存 一 个 参与 CARP 的 代理 服务 器 列表 。 周 期 性 地 查询 这 些 代理 服务 器 ， 看 看 它 
们 是 否 仍 然 活跃 。 

° 为 每 个 参与 的 代理 服务 器 计算 一 个 散 列 函数 。 散 列 函数 的 返回 值 要 考虑 此 代理 所 
能 处 理 的 负载 量 。 
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。 定义 一 个 独立 的 散 列 函 数 ,这 个 函数 会 根据 所 请 求 Web 对 象 的 URL 返回 一 个 数字 。 

° 将 URL 散 列 函数 的 结果 代入 代理 服务 器 的 散 列 函数 ， 得 到 一 个 数字 阵列 。 这 些 
数字 中 的 最 大 值 决 定 了 要 为 这 个 URL 使 用 的 代理 服务 器 。 由 于 算出 来 的 值 是 确 
定 的 ， 所 以 对 同一 个 Web 对 象 的 后 继 请 求 会 被 转发 给 同一 台 代 理 服 务 器 。 


以 上 4 项 任务 可 以 由 浏览 器 、 插 件 执行 ， 也 可 以 在 一 个 中 间 服 务 器 上 计算 。 


为 每 个 代理 服务 器 集群 创建 一 个 表 ， 表 中 列 出 了 集群 中 的 所 有 服务 器 。 表 中 的 每 个 
条 目 都 应 该 包含 全 局 参数 的 相关 的 信息 ， 比 如 ， 负 载 因子 、 生 存 时 间 (TTL)、 倒 计 
数值 和 应 该 以 何 频率 查询 成 员 之 类 的 全 局 参数 。 负 载 因子 说 明 机 器 可 以 处 理 多 少 负 
载 ， 这 取决 于 那 台 机 器 的 CPU 速度 和 硬盘 容量 。 可 以 通过 RPC 接口 对 此 表 进 行 远 
程 维 护 。 只 要 表 中 的 字段 被 RPC 修改 了 ， 就 可 以 使 其 对 下 游 的 客户 端 和 代理 可 见 ， 
或 将 其 发 布 给 它们 。 这 项 发 布 工作 是 在 HTTP 中 进行 的 ， 这 样 ， 所 有 的 客户 端 或 代 
理 服务 器 就 都 可 以 在 不 引入 另 一 种 代理 间 协 议 的 基础 上 消化 表格 信息 了 。 客 户 端 和 
代理 服务 器 只 用 了 一 个 知名 URL 来 获取 这 张 表 。 


所 使 用 的 散 列 函 数 必须 能 够 确保 Web 对 象 在 参与 的 代理 服务 器 间 是 统计 分 布 的 。 应 
该 用 代理 服务 器 的 负载 因子 来 确定 分 配给 那 台 代理 的 Web 对 象 的 统计 概率 。 


总 之 ，CARP 协议 允许 将 一 组 代理 服务 器 看 成 单个 的 集群 缓存 ， 而 不 是 〈 像 ICP 中 
那样 的 ) 一 组 相互 合作 但 又 相互 独立 的 缓存 服务 器 。 确 定 的 请 求解 析 路 径 会 在 一 跳 
内 找到 某 个 特定 的 Web 对 象 的 家 。 这 样 会 降低 ICP 在 一 组 代理 服务 器 中 查找 Web 
对 象 时 常会 产生 的 代理 间 流 量 。CARP 还 可 以 避免 在 不 同 的 代理 服务 器 上 存储 Web 
对 象 的 多 个 副本 的 问题 ， 这 样 做 的 优点 是 缓存 系统 集群 的 Web 对 象 存储 容量 较 大 ， 
缺点 是 任意 一 个 代理 的 故障 都 要 改写 现存 代理 的 部 分 缓存 内 容 。 


20.9 超 文本 缓存 协议 


之 前 我 们 讨论 了 ICP， 这 个 协议 允许 代理 缓存 向 兄弟 缓存 查询 文件 是 否 存在 。 但 设 
计 ICP 时 考虑 的 是 HTTP/O.9 协议 ， 因 此 ， 向 兄弟 缓存 查询 资源 是 否 存 在 时 ， 只 人 允 
许 缓存 发 送 URL, HTTP 版 本 1.0 和 1.1 引 入 了 很 多 新 的 请 求 首 部 ， 这 些 首部 可 以 
和 URL 一 起 用 来 确定 文件 是 否 匹 配 。 因 此 ， 只 在 请 求 中 发 送 URL 可 能 无 法 得 到 精 
确 的 响应 。 


HTCP ( 超 文本 缓存 协议 ) 允许 兄弟 缓存 之 间 通 过 URL 和 所 有 的 请 求 及 响应 首部 
来 相互 查询 文档 是 否 存在 ， 以 降低 错误 命中 的 可 能 。 而 且 HTCP 允许 兄弟 缓存 监 
视 或 请 求 在 对 方 的 缓存 中 添加 或 删除 所 选中 的 文档 ， 并 修改 对 方 已 缓存 文档 的 缓存 
策略 。 
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20-13 说 明了 一 个 ICP 事务 ， 此 图 也 可 以 用 来 说 明 HTCP 事务 ， 后 者 是 另 一 个 对 
象 发 现 协议 。 如 果 附 近 的 缓存 中 有 这 个 文档 ， 发 起 请 求 的 缓存 可 以 打开 一 条 到 此 组 
存 的 HTTP 连接， 以 获取 那个 文档 的 副本 。ICP 和 HTCP 事务 之 间 的 区 别 体 现在 请 





求 和 响应 细节 上 。 


HTCP 报 文 的 结构 如 图 














20-15 所 示 。 首 部 中 包含 了 报 文 的 长 度 和 报 文 版 本 。 数 据 部 


分 开始 是 数据 长 度 ， 包 含 了 opcode、 响 应 代码 、 一 些 标记 及 ID， 最 后 是 实际 的 数 
据 。 可 选 的 认证 部 分 跟 在 Data 小 节 的 后 面 。 
































报 文 长 度 
主要 版 本 | 次 要 版 本 数据 长 度 
Opcode 响应 代码 

















Opcode 数 据 





认证 部 分 长 度 签名 时 间 








签名 时 间 签名 过 期 时 间 








签名 过 期 时 间 密 钥 名 称 
























20-15. HTCP 报 文 格式 
报 文字 段 的 详细 内 容 如 下 所 述 。 


。 首部 
Header 部 分 包含 32 


位 的 报 文 长 度 ，8 位 的 主要 协议 版 本 和 8 位 的 次 要 协议 版 本 。 


报 文 长 度 包含 所 有 首部 、 数 据 和 认证 部 分 的 长 度 。 


。 数据 





Data 部 分 包含 了 HTCP 报 文 ， 结 构 如 图 20-15 所 示 。 数 据 组 件 如 表 20-6 所 示 。 
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表 20-6 HTCP 数 据 组 件 


组 fk 


描 述 








数据 长 度 
Opcode 
响应 代码 


EI 


Opcode 数据 





16 位 的 Data 部 分 字 节 数 ， 包 含 Length 字段 自身 的 长 度 

HTCP 事务 的 4 位 操作 代码 。 表 20-7 列 出 了 Opcode 的 完整 内 容 

说 明 事 务 成 功 或 失败 的 4 位 键 值 。 可 能 的 值 有 : 

0 一 一 设 有 进行 认证 ， 但 需要 进行 认证 ， 

1 一 一 需要 进行 认证 ， 但 没有 得 到 满足 ; 

2 一 一 未 实现 的 Opcode; 

3 一 一 不 支持 主要 版 本 ， 

4 一 一 不 支持 次 要 版 本 ， 

5 一 一 不 合适 、 不 允许 或 非 预 期 的 Opcode。 

Fl 是 重 载 的 一 一 如 果 报 文 是 一 条 请 求 ，F1 就 是 请 求 端 设 置 的 1 位 标记 ， 说 明 需 要 响 
应 (Fl=1) ; 如 果 报 文 是 一 条 响应 ，F1 就 是 一 个 1 位 标记 ， 用 来 说 明 应 该 将 响应 作 
为 对 整 条 报 文 的 响应 来 解释 (Fl=1)， 还 是 将 其 作为 对 Opcode 数据 字段 的 响应 来 解 
释 (Fl1=0) 


用 来 说 明报 文 是 请 求 (RR=0) 还 是 响应 (RR-1) 的 1 位 标记 
32 位 的 值 ， 与 请 求 端的 网 络 地 址 组 合 在 一 起 可 以 唯一 地 标识 HTCP 事务 


Opcode 数据 与 Opcode 有 关 。 参 见 表 20-7 





















































表 20-7 列 出 了 HTCP Opcode 代码 及 其 相应 的 数据 类 型 。 


表 20-7 HTCP Opcode 


























Opcode 值 描 述 响应 代码 Opcode 数 据 
NOP 0 ”本 质 上 是 一 个 ping 操作 总 是 0 无 
TST 1 如 果 有 实体 ， 就 为 0， 如 果 没 在 请 求 中 包含 URL 和 
有 提供 实体 ， 就 为 1 请 求 首 部 ， 在 响应 中 
只 包含 响应 首部 
MON 2 接受 就 为 0， 拒 绝 就 为 1 
SET 3 ”SET 报 文 允 许 缓存 请 求 修改 接受 就 为 0， 忽 略 就 为 1 
缓存 策略 。 可 以 用 于 SET 
报 文 的 首部 参见 表 20-9 
CLR 4 如 果 曾 经 有 过 ， 但 现在 没有 
了 ， 就 为 0， 如 果 曾 经 有 过 ， 
而 且 现 在 还 有 ， 就 为 1， 如 
有 果 从 未 有 过 ， 就 为 2 
20.9.1 HTCP 认 证 





HTCP 报 文 的 认证 部 分 是 可 选 的 。 其 结构 如 图 20-15 所 示 ， 表 20-8 列 出 了 它 的 认证 


组 件 。 
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表 20-8 HTCP 认 证 组 件 
































组 í fF x5 

认证 部 分 长 度 16 位 的 报 文 认证 部 分 字 节 数 ， 包 含 了 长 度 字 段 自身 的 长 度 

签名 时 间 32 位 数 ， 表 示 从 格林 尼 治 标准 时 间 1970 年 1 月 1 日 00:00:00 开始 ， 到 产生 签名 的 
时 间 之 间 的 秒 数 

签名 过 期 时 间 32 位 数 ， 表 示 从 格林 尼 治 标准 时 间 1970 年 1 月 1 日 00:00:00 开始 ， 到 签名 过 期 时 
所 经 历 的 秒 数 

密 钥 名 称 用 来 表示 共享 密 钥 名 称 的 字符 串 。 密 钥 字段 有 两 个 部 分 : 用 来 说 明 后 面 那个 字符 串 
长 度 的 16 位 的 字 节 数 ， 后 面 跟着 的 字符 串 是 未 经 解释 的 字 节 流 

签名 HMAC-MDS 摘要 ， 它 是 B 值 为 64 (表示 源 IP 地 址 和 目的 全 地 址 及 端口 )、 报 文 





的 主要 及 次 要 HTCP 版 本 、 签 名 时 间 和 签名 过 期 值 ， 完 整 的 HTCP 数据 以 及 密 钥 的 
摘要 。 签 名 也 包含 两 个 部 分 : 16 位 长 的 字符 串 字 节 数 ， 后 面 跟着 这 个 字符 串 


























20.9.2 ”设置 缓存 策略 
SET 报 文 允 许 缓存 请 求 对 已 缓存 文档 的 缓存 策略 进行 修改 。 表 20-9 中 给 出 了 可 以 在 
SET 报 文中 使 用 的 首部 。 


表 20-9 修改 缓存 策略 的 缓存 首部 列表 
首 部 描 述 

Cache-Vary 请 求 端 已 经 知道 内 容 会 随 一 组 首部 的 变化 而 变化 ， 这 组 首部 与 响应 Vary 首部 
中 的 那 一 组 不 同 。 这 个 首部 会 覆盖 响应 的 vary 首部 

Cache-Location 可 能 有 此 对 象 副本 的 代理 缓存 的 列表 

Cache-Policy 关于 此 对 象 的 缓存 策略 ， 请 求 端 已 经 了 解 到 的 比 响应 首部 中 指定 的 更 详细 。 可 
能 的 值 包 括 : no-cache， 说 明 响 应 是 不 可 缓存 的 ， 但 可 以 在 多 个 同时 发 起 
请 求 的 请 求 端 之 间 共 享 ， no-share， 说 明 对 象 是 不 可 共享 的 , no-cache- 
cookie， 说 明 内 容 可 能 会 随 cookie 而 发 生变 化 ， 不 推荐 缓存 

Cache-Flags 请 求 端 修改 了 对 象 的 缓存 策略 ， 可 能 要 对 它 进 行 特别 的 处 理 ， 不 一 定 要 根据 其 
实际 的 策略 进行 处 理 

Cache-Expiry 发 送 端 了 解 到 的 文档 实际 过 期 时 间 

Cache-MD5 请 求 端 计算 出 来 的 对 象 的 MD5 校 验 和 ， 可 能 与 Content -MD5 首部 的 值 有 所 不 
同 ， 也 可 能 在 对 象 没有 content -MD5 首部 的 情况 下 提供 

Cache-to-Origin 请 求 端 测量 的 到 原始 服务 器 的 往返 时 间 。 此 首部 值 的 格式 为 < 原始 服务 器 名 称 
或 JP 地址 >< 以 秒 为 单位 的 平均 往返 时 间 >< 采样 数 >< 请 求 端 和 原始 服务 器 之 
间 的 路 由 器 跳 数 > 














































































































HTCP 允许 通过 查询 报 文 将 请 求 和 响应 首部 发 送 给 兄弟 缓存 ， 这 样 可 以 降低 缓存 查 
询 中 的 错误 命中 率 。 通 过 进一步 允许 在 兄弟 缓存 间 交 换 策略 信息 ，HTCP 还 可 以 提 
高 兄弟 缓存 之 间 的 合作 能 
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20.00 ”更 多 信息 
更 多 信息 可 参考 下 列 文献 。 


DNS and Bind? ((DNS 5 BIND)) 
Cricket Liu, Paul Albitz 和 Mike Loukides 著 ， O'Reilly & Associates 公司 出 版 。 


http://www.wrec.org/Drafts/draft-cooper- Webi-wpad-00.txt 
"Web Proxy Auto-Discovery Protocol" (*Web 代理 自动 发 现 协议 ”) 。 


http://home.netscape.com/eng/mozilla/2.0/relnotes/demo/proxy-live.html 
“Navigator Proxy Auto-Config File Format”(“Navigator 代理 自动 配置 文件 格式 ”)。 





http://www.ietf.org/rfc/rfc2186.txt 
IETF RFC 2186, “Intercache Communication Protocol (ICP) Version2”( "缓存 间 
的 通信 协议 ， 版 本 2”) D. Wessels 和 K. Claffy 编写 。 


http://icp.ircache.net/carp.txt 
"Cache Array Routing Protocol v1.0”( “缓存 阵列 路 由 协议 v1.0"), 


http://www.ietf.org/rfc/rfc2756.txt 
IETF RFC 2756, “Hyper Text Caching Protocol(HTCP/0.0)”(“ 超 文本 缓存 协议 
(HTCP/0.0)”), P. Vixie FU D. Wessels 编写 。 


http://www .ietf.org/internet-drafts/draft-wilson-wrec-wccp-v2-00.txt 
"Web Cache Communication Protocol v2.0" (“Web 缓存 通信 协议 v2.0"), M. Cieslak, 
D. Forster, G. Tiwana 和 R. Wilson 编写 。 














http://www .ietf.org/rfc/rfc2131.txt?number-2131 
“Dynamic Host Configuration Protocol”( “动态 主机 配置 协议 ”) 。 


http://www ietf.org/rfc/rfc2132.txt?numberz2132 
“DHCP Options and BOOTP Vendor Extensions" (“DHCP 选项 与 BOOTP 厂商 扩展 ”)。 


http://www ietf.org/rfc/rfc2608.txt?numberz2608 
"Service Location Protocol,Version2”(“ 服 务 定位 协议 ， 版 本 2"). 


http://www.ietf.org/rfc/rfc2219.txt?number=2219 
“Use of DNS Aliases for Network Services”( ”为 网 络 服务 使 用 DNS 别名 ”) 。 














注 3: 本 书 中 译本 已 由 中 国电 力 出 版 社 出 版 。( 编 者 注 ) 
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日 志 记 录 与 使 用 情况 跟踪 














几乎 所 有 的 服务 器 和 代理 都 会 记录 下 它们 所 处 理 的 HTTP 事务 摘要 。 这 么 做 出 
于 一 系列 的 原因 : 跟踪 使 用 情况 、 安 全 性 、 计 费 、 错 误 检测 ， 等 等 。 本 章 简要 介绍 
了 日 志 记录 ， 研 究 了 通常 会 记录 HTTP 事务 哪些 方面 的 信息 以 及 一 些 常 见 日 志 格 式 
中 所 包含 的 内 容 。 


21.1 记录 内 容 

大 多 数 情况 下 ， 日志 的 记录 出 于 两 种 原因 : 查找 服务 器 或 代理 中 存在 的 问题 (比如 ， 
哪些 请 求 失败 了 )， 或 者 是 生成 Web 站 点 访问 方式 的 统计 信息 。 统 计数 据 对 市 场 营 
销 、 计 费 和 容量 规划 (比如 ,决定 是 否 需要 增加 服务 器 或 带宽 ) 都 非常 有 用 。 

可 以 把 一 个 HTTP 事务 中 所 有 的 首部 都 记录 下 来 ， 但 对 每 天 要 处 理 数 百 万 个 事务 的 
服务 器 和 代理 来 说 ， 这 些 数据 的 体积 超大 ， 很 快 就 会 失控 。 不 应 该 记录 实际 上 你 并 
不 感 兴趣 ， 甚 至 从 来 都 不 会 去 看 一 眼 的 数据 。 


通常 ， 只 记录 事务 的 基本 信息 就 行 了 。 通 常会 记录 下 来 的 几 个 字段 示例 为 : 




















。 HTTP 方法 ; 

° 客户 端 和 服务 器 的 HTTP 版 本 ; 

所 请 求 资源 的 URL; 

响应 的 HTTP 状态 码 ， 

请 求 和 响应 报 文 的 尺寸 (包含 所 有 的 实体 主体 部 分 ) ; 
。 事务 开始 时 的 时 间 截 ， 

。 Referer 首部 和 User-Agent 首部 的 值 。 


HTTP 方法 和 URL 说 明了 请 求 试图 做 些 什 么 一 一 比如 ，GET 某 个 资源 或 POST 某 个 
定单 。 可 以 用 URL 来 记录 Web 站 点 上 页 面 的 受 欢 迎 程度 。 


版 本 字符 串 给 出 了 与 客户 端 和 服务 器 有 关 的 一 些 提 示 ， 在 客户 端 和 服务 器 之 间 出 现 
一 些 比 较 奇 怪 或 非 预期 的 交互 动作 时 ， 它 会 非常 有 用 。 比 如 ， 如 果 请 求 的 失败 率 高 
于 预期 ， 那 版 本 信息 指向 的 可 能 是 一 个 无 法 与 服务 器 进行 交互 的 新 版 浏览 器 。 
HTTP 状态 码 说 明了 请 求 的 执行 状况 : 是 否 成 功 执行 ， 认 证 请 求 是 否 失败 ， 资 源 是 
否 找到 等 (HTTP 状态 码 列表 参见 3.2.2 节 )。 

请 求 / 响应 的 大 小 和 时 间 礁 主要 用 于 记 账 ， 就 是 记录 流入 、 流 出 或 流 经 应 用 程序 的 
字 节 有 和 多少。 还 可 用 时 间 惟 将 观察 到 的 问题 与 当时 发 起 的 一 些 请 求 关 联 起 来 。 
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21.2 HERË 


目前 已 有 一 些 日 志 格 式 的 标准 了 。 本 市 我 们 会 讨论 一 些 最 常见 的 日 志 格 式 。 大 部 分 
商用 和 开源 的 HTTP 应 用 程序 都 支持 以 一 种 或 多 种 常用 格式 进行 日 志 记录 。 很 多 这 
样 的 应 用 程序 都 支持 管理 者 配置 日 志 格 式 ， 创 建 自 定 义 的 格式 。 


应 用 程序 支持 管理 者 使 用 这 些 更 标准 的 格式 的 主要 好 处 之 一 就 在 于 ， 可 以 充分 利用 
那些 已 构建 好 的 工具 处 理 这 些 日 志 ， 并 产生 基本 的 统计 信息 。 有 很 多 开源 包 和 商用 
包 都 可 用 来 压缩 日 志 ， 以 进行 汇报 。 使 用 标准 格式 ， 应 用 程序 及 其 管理 员 就 都 可 以 
利用 这 些 包 了 。 





21.2.1 常见 日 志 格 式 

现在 ， 最 常见 的 日 志 格式 之 一 就 是 常用 日 志 格式 。 这 种 日 志 格 式 最 初 由 NCSA 定 
义 ， 很 多 服务 器 在 默认 情况 下 都 会 使 用 这 种 日 志 格式 。 可 以 将 大 部 分 商用 及 开源 服 
务 器 配置 为 使 用 这 种 格式 ， 有 很 多 商用 及 免费 工具 都 可 辅助 解析 常用 日 志 格 式 的 文 
件 。 表 21-1 按 序列 出 了 常用 日 志 格 式 中 的 字段 。 


表 21-1 常用 日 志 格式 字段 




































































字 R dá 3 
”remotehost 请 求 端 机 器 的 主机 名 或 耳 地 址 (如果 没 有 配置 服务 器 去 执行 反 向 DNS 或 无 
法 查找 请 求 端的 主机 名 ， 就 使 用 卫 地 址 ) 

username 如 果 执 行 了 ident 查找 ， 就 是 请 求 端 已 认证 的 用 户 名 * 
auth-username 如 果 进 行 了 认证 ， 就 是 请 求 端 已 认证 的 用 户 名 
timestamp 请 求 的 日 期 和 时 间 
request-line 精确 的 HTTP 请 求 行文 本 , GET /index.html HTTP/1.1 
response-code 响应 中 返回 的 HTTP 状态 码 
response-size 响应 主体 中 的 content -Length， 如 果 响 应 中 没有 返回 主体 ， 就 记录 0 

a: RFC 931 描述 了 在 此 认证 中 使 用 的 ident 查找 。ident 协议 是 在 第 5 章 介绍 的 。 


| 21-1 列 出 了 几 个 常见 日 志 格 式 条 目 。 
例 21-1 常见 日 志 格式 


209.1.32.44 - - [03/Oct/1999:14:16:00 -0400] "GET / HTTP/1.0" 200 1024 


http-guide.com - dg [03/Oct/1999:14:16:32 -0400] "GET / HTTP/1.0" 200 477 
http-guide.com - dg [03/Oct/1999:14:16:32 -0400] "GET /foo HTTP/1.0" 404 0 


在 这 些 例子 中 ， 字 段 的 分 配 如 下 所 示 。 


























志 记录 与 使 用 情况 跟踪 | 507 

















484 








字段 1 条 目 1 条 目 2 条 目 2 
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remotehost 209.1.32.44 http-guide.com http-guide.com 

username < 空 > <= > cm» 

auth-username «i» dg dg 

timestamp 03/O0ct/1999:14:16:00 -0400 |.03/0ct/1999:14:16:32 -0400 — 03/0ct/1999:14:16:32 -0400 
request-line GET / HTTP/1.0 GET / HTTP/1.0 GET /foo HTTP/1.0 
response-code 200 200 404 

response-size 1024 477 0 


注意 ，remotehost 字段 可 以 是 http-guide.com 那样 的 主机 名 ， 也 可 以 是 209.1.32.44 








这 样 的 IP 地 址 。 


第 二 个 (username) 和 第 三 个 (auth-username) 字段 之 间 的 破 折 号 说 明 字 段 为 空 。 
这 说 明 要 么 是 没有 进行 ident 查找 (第 二 个 字段 为 空 )， 要 么 是 没有 进行 认证 (第 三 
个 字段 为 空 )。 


21.2.2 组 合 日 志 格式 

另 一 种 常用 日 志 格 式 为 组 合 日 志 格 式 (Combined Log Format), ， 例 如 Apache 服务 器 
就 支持 这 种 格式 。 组 合 日 志 格 式 与 常用 日 志 格 式 很 类 似 。 实 际 上 ， 它 就 是 常用 日 志 
格式 的 精确 镜像 ， 只 是 添加 了 (K 21-2 中 列 出 的 ) 两 个 字段 。User-Agent 字段 用 于 
说 明 是 哪个 HTTP 客户 端 应 用 程序 在 发 起 已 被 记录 的 请 求 ， 而 Referer 字段 则 提供 
了 更 多 与 请 求 端 在 何 处 找到 这 个 URL 的 有 关 信 息 。 


表 21-2 ”新 加 的 组 合 日 志 格 式 字段 











字 E Ho xh 
Referer Referer 首部 的 内 容 
User-Agent User-Agent 首部 的 内 容 


例 21-2 给 出 了 一 个 组 合 日 志 格 式 的 条 目 。 
例 21-2 组 合 日 志 格 式 


209.1.32.44 - - [03/0ct/1999:14:16:00 -0400] "GET / HTTP/1.0" 200 1024 
"http://www.joes-hardware.com/" "5.0: Mozilla/4.0 (compatible; MSIE 
5.0; Windows 98)" 


在 例 21-2 rB, Referer 字段 和 User-Agent 字段 的 值 如 下 所 示 。 








字 B 值 
Referer http://www.joes-hardware.com/ 
User-Agent 5.0: Mozilla/4.0 (兼容 的 ，MSIE 5.0, Windows 98) 
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例 21-2 的 组 合 日 志 格 式 条 目 示例 中 的 前 七 个 字段 和 常用 日 志 格 式 中 的 完全 一 样 (Z 
见 例 21-1 中 的 第 一 个 条 目 ) 。 两 个 新 字段 Referer 和 User-Agent 附加 在 日 志 条 目的 
末尾 。 


21.2.3 网 景 扩展 日 志 格 式 

景 进 入 商用 HTTP 应 用 程序 领域 时 ， 为 其 服务 器 定义 了 很 多 其 他 HTTP 应 用 程 
序 开发 者 已 接纳 的 日 志 格式 。 网 景 的 格式 是 基于 NCSA 的 常用 日 志 格式 的 ， 但 它 
们 扩展 了 该 格式 ， 以 支持 与 代理 和 Web 缓存 这 样 的 HTTP 应 用 程序 相关 的 字段 。 


景 扩展 日 志 格式 的 前 7 个 字段 与 常用 日 志 格 式 中 的 那些 字段 完全 相同 (参见 表 
21-1)。 表 21-3 按 序列 出 了 网 景 扩展 日 志 格式 引入 的 新 字段 。 


表 21-3 ”网 景 扩 展 日 志 格式 新 加 的 字段 




































































字 R 描 R 
proxy-response-code 如 果 事 务 处 理 经 过 了 某 个 代理 ,就 是 从 服务 器 传 往 代 理 的 HTTP 响应 码 
proxy-response-size 如 果 事 务 处 理 经 过 了 某 个 代理 ， 就 是 发 送 给 代理 的 服务 器 响应 实体 的 
Content-Length 
client-request-size 发 给 代理 的 客户 端 请 求 的 所 有 主体 或 实体 的 content-Length 
proxy-request-size 如 果 事 务 处 理 经 过 了 某 个 代理 ， 就 是 代理 发 往 服务 器 的 请 求 的 所 有 主体 


或 实体 的 content -Length 





client-request-hdr-size 以 字 节 为 单位 的 客户 端 请 求 首部 的 长 度 

proxy-response-hdr-size 如果 事务 处 理 经 过 了 某 个 代理 ， 就 是 以 字 节 为 单位 的 、 发 送 给 请 求 端 的 
代理 响应 首部 的 长 度 

proxy-request-hdr-size 如 果 事 务 处 理 经 过 了 某 个 代理 ， 就 是 以 字 节 为 单位 的 、 发 送 给 服务 器 的 
代理 请 求 首 部 的 长 度 

server-response-hdr-size 以 字 节 为 单位 的 ， 服 务 器 响应 首部 的 长 度 


proxy-timestamp 如 果 事 务 处 理 经 过 了 某 个 代理 ， 就 是 请 求 和 响应 经 过 代理 传输 所 经 
时 间 (单位 为 秒 ) 






















































































例 21-3 给 出 了 一 个 网 景 扩展 日 志 格 式 的 条 目 。 
例 21-3 网 景 扩展 日 志 格式 


209.1.32.44 - - [03/Oct/1999:14:16:00-0400] "GET / HTTP/1.0" 200 1024 
200 1024 0 0 215 260 
279 254 3 


在 这 个 例子 中 ， 扩 展 字段 的 值 如 下 所 示 。 
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= R fü 





proxy-response-code 200 
proxy-response-size 1024 
client-request-size 0 
proxy-request-size 0 
client-request-hdr-size 215 
proxy-response-hdr-size 260 
proxy-request-hdr-size 279 
server-response-hdr-size 254 
proxy-timestamp 3 


例 21-3 中 网 景 扩展 日 志 格式 条 目 示 例 中 的 前 7 个 字段 是 常用 日 志 格 式 条 目 示例 的 镑 
f& (参见 例 21-1 中 的 第 一 个 条 目 ) 。 


21.2.4 a Q. 日 志 格 式 
一 种 网 景 日 志 格式 ， 网 景 扩 展 2 日 志 格式 采用 了 扩展 日 志 格式 ， 并 添加 了 一 些 与 


a E S R e e a 
HTTP 客户 端 和 HTTP 代理 应 用 程序 间 的 交互 图 景 。 


网 景 扩展 2 日 志 格 式 是 基于 网 景 扩 展 日 志 格 式 的 ， 初 始 字段 与 表 21-3 中 列 出 的 字段 
完全 相同 ( 它 也 是 表 21-1 中 常用 日 志 格 式 字段 的 扩展 ) 。 
R 21-4 按 序列 出 了 网 景 扩 展 2 日 志 格 式 新 加 的 字段 。 


表 21-4 附加 的 网 景 扩展 2 日 志 格 式 字 段 
字 B 描述 
route 代理 用 来 向 客户 端 发 送 请 求 的 路 径 (参见 表 21-5) 


client-finish-status-code 客户 端 完 成 状态 码 。 说 明了 发 送 给 代理 的 客户 端 请 求 是 成 功 完成 (FIN) 
了 ， 还 是 被 打 断 了 (INTR) 


proxy-finish-status-code 代理 完成 状态 码 。 说 明代 理发 送 给 服务 器 的 请 求 是 成 功 完成 (FIN) T, 
还 是 被 打 断 了 (INTR) 


cache-result-code 缓存 结果 代码 ， 说 明 缓 存 是 如 何 响应 请 求 的 
a: 表 21-7 列 出 了 网 景 的 缓存 结果 代码 。 

















例 21-4 给 出 了 一 个 网 景 扩 展 2 日志 格式 的 条 目 。 
例 21-4 网 景 扩 展 2 日志 格式 


209.1.32.44 - - [03/Oct/1999:14:16:00-0400] "GET / HTTP/1.0" 200 1024 
200 1024 0 0 215 260 
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279 254 3 DIRECT FIN FIN WRITTEN 


这 个 例子 中 扩展 字段 的 值 如 下 所 示 。 





字 R 值 
Toute DIRECT 
client-finish-status-code FIN 
proxy-finish-status-code FIN 


cache-result-code WRITTEN 





例 21-4 的 网 景 扩展 2 日 志 格式 条 目 中 的 前 16 个 字段 就 是 网 景 扩展 日 志 格 式 示例 条 
目的 镜像 (参见 例 21-3). 


表 21-5 列 出 了 有 效 的 网 景 路 由 代码 。 
表 21-5 ”网 景 路 由 代码 




















值 描 述 
DIRECT 资源 是 直接 从 服务 器 上 获取 的 
PROXY (host:port) 资源 是 通过 代理 “host:port” 歼 取 的 
SOCKS(socks:port) 资源 是 通过 SOCKS 服务 器 “host:port” 获 取 的 


ak 21-6 列 出 了 有 效 的 网 景 完 成 代码 。 
表 21-6 ”网 景 完成 状态 码 








人 
请 求 未 开始 
FIN 请 求 成 功 完 成 
INTR 请 求 被 客户 端 中 断 或 被 代理 / 服务 器 终止 
TIMEOUT 请 求 被 代理 / 服务 器 超时 





K 21-7 列 出 了 有 效 的 网 景 缓存 代码 。， 
表 21-7 网 景 缓存 代码 





资源 不 可 缓存 
WRITTEN 资源 被 写 信 了 缓存 
REFRESHED 资源 被 缓存 ， 且 被 刷新 了 
NO-CHECK 返回 已 缓存 的 资源 ， 未 进行 新 鲜 性 检查 





























注 1: 表 21-7 列 出 了 网 景 缓存 结果 代码 。 
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K a F jë 
UP-TO-DATE 返回 已 缓存 的 资源 ， 进 行 了 新 鲜 性 检查 
HOST-NOT-AVAILABLE 返回 已 缓存 的 资源 。 由 于 远程 服务 器 不 可 用 ， 所 以 未 进行 新 鲜 性 检查 
CL-MISMATCH 未 将 资源 写 和 人 缓存。 由 于 Content-Length 与 资源 尺寸 不 匹配 ， 放 弃 了 写 
操作 
ERROR 因为 出 错 ， 资 源 未 被 写 入 缓存。 比如 ， 出 现 了 超时 ， 或 客户 端 放 弃 了 此 事务 




















与 很 多 其 他 HITP 应 用 程序 一 样 ， 网 景 应 用 程序 也 有 其 他 的 日 志 格式 ， 包 括 一 种 灵 
活 日 志 格式 和 一 种 管理 者 输出 自 定 义 日 志 字 段 的 方式 。 这 些 格式 给 予 管理 者 更 大 的 
控制 权 ， 并 可 以 选择 在 日 志 中 报告 HTTP 事务 处 理 的 哪些 部 分 〈 首 部 、 状 态 、 尺 十 
等 )， 以 自 定义 其 日 志 。 


由 于 很 难 预测 管理 者 希望 从 其 日 志 中 获取 哪些 信息 ， 才 添加 了 管理 者 配置 自 定义 格 
式 的 能 力 。 很 多 其 他 的 代理 和 服务 器 都 有 发 布 自 定义 日 志 的 能 

















21.2.5 Squid H ERR 

Squid 代理 缓存 (http://www.squid-cache.org) 是 Web 上 一 个 很 古老 的 部 分 。 其 起 源 
可 以 回 漳 到 一 个 早期 的 Web 代理 缓存 项 目 (ftp://ftp.cs.colorado.edu/pub/techreports/ 
schwartz/Harvest.Conf.ps.Z) , Squid 是 开源 社团 多 年 来 扩展 增强 的 一 个 开源 项 目 。 
有 很 多 工具 可 以 用 来 辅助 管理 Squid 应 用 程序 ， 包 括 一 些 有 助 于 处 理 、 审 核 及 开发 
其 日 志 的 工具 。 很 多 后 继 代 理 缓存 都 为 自己 的 日 志 使 用 了 Squid 格式 ， 这 样 才能 
好 地 利用 这 些 工具 。 


Squid 日 志 条 目的 格式 相当 简单 。 表 21-8 总 结 了 该 日 志 格 式 的 字段 。 








表 21-8 Squid 日 志 格式 字段 











t R 描 $ 
timestamp 请 求 到 达 时 的 时 间 戳 ， 是 从 格林 尼 治 标准 时 间 1970 年 1 月 1 日 开始 的 秒 数 
time-elapsed 请 求 和 响应 通过 代理 传输 所 经 历 的 时 间 (以 毫秒 为 单位 ) 
host-ip 客户 端 (请求 端 ) 主机 的 IP 地 址 
result-code/status result 字段 是 Squid 类 型 的 ， 用 来 说 明 在 此 请 求 过 程 中 代理 采取 了 什么 动作 ;* 























code 字段 是 代理 发 送 给 客户 端的 HTTP 响应 代码 
size 代理 响应 客户 端的 字 节 长 度 ， 包 括 HTTP 响应 首部 和 主体 
method 客户 端 请 求 的 HTTP 方法 








a: 表 21-9 列 出 了 各 种 结果 代码 及 其 含义 。 
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字 R Ho 述 
url 客户 端 请 求 中 的 URL” 
rfc931-ident° 客户 端 经 过 认证 的 用 户 名 ” 
hierarchy/from 与 网 景 格式 中 的 route 字段 一 样 ，hierarchy 字段 说 明了 代理 向 客户 端 发 送 请 求 
时 经 由 的 路 径 。*from 字段 说 明了 代理 用 来 发 起 请 求 的 服务 器 的 名 称 

content-type 代理 响应 实体 的 Content-Type 

b: 回顾 第 2 章 ， 代 理 通常 会 记录 下 整 条 请 求 URL， 这 样 如 果 URL 中 有 用 户 和 密码 组 件 ， 代 理 就 会 在 不 

经 意 间 记 录 下 此 信息 。 
c: rfc931-ident. hierarchy/from 和 content-type 字段 是 在 Squid 1.1 中 添加 的 。 早 期 版 本 中 都 没有 这 些 字段 。 


d: RFC 931 描述 了 这 种 认证 方式 中 使 用 的 ident 查找 。 
e: http://squid.nlanr.net/Doc/FAQ/FAQ-6.html#ss6.6 列 出 了 所 有 有 效 的 Squid hierarchy 代码 。 








例 21-5 给 出 了 一 个 Squid 日 志 格 式 条 目的 例子 。 
例 21-5 Squid 日 志 格 式 


99823414 3001 209.1.32.44 TCP_MISS/200 4087 GET http://www.joes- 
hardware.com - DIRECT/ 
proxy.com text/html 


这 些 字 段 的 值 如 下 所 示 。 








t R f& 
timestamp 99823414 
time-elapsed 3001 
host-ip 209.1.32.44 
action-code TCP. MISS 
status 200 
size 4087 
method GET 
URL http://www.joes-hardware.com 490 











RFC 931 ident " 


hierarchy DIRECT* 
from proxy.com 
content-type text/html 





a: DIRECT Squid hierarchy 值 与 网 景 日 志 格 式 中 的 DIRECT route 值 一 样 。 


X 21-9 列 出 了 各 种 Squid 结果 代码 。- 








注 2: 这 些 行 为 代码 中 有 几 个 通常 是 处 理 Squid 代理 缓存 的 内 部 行为 ， 因 此 其 他 使 用 了 Squid 日 志 格式 的 代 
理 并 没有 使 用 全 部 的 代码 。 
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表 21-9 ”Squid 结果 代码 





























T ”为 描 述 
TCP_HIT 资源 的 有 效 副 本 是 由 缓存 提供 的 
TCP_MISS 资源 不 在 缓存 中 





TCP_REFRESH_HIT 资源 在 缓存 中 ,但 需要 进行 新 鲜 性 检查 。 代 理 与 服务 器 再 次 验证 了 资源 ， 
发 现 缓存 中 的 副本 确实 还 是 新 鲜 的 

TCP_REF_FAIL_HIT 资源 在 缓存 中 ， 但 需要 进行 新 鲜 性 检查 。 但 再 验证 失败 了 (可 能 是 代理 无 
法 连接 到 服务 器 ) ， 因 此 返回 的 是 “过 期 ”的 资源 

TCP_REFRESH_MISS 资源 在 缓存 中 ， 但 需要 进行 新 鲜 性 检查 。 在 与 服务 器 进行 验证 的 时 候 ， 代 
理 得 知 缓存 中 的 资源 过 期 了 ， 并 收 到 一 个 新 的 副本 


















































TCP_CLIENT_REFRESH_ 请 求 端 发 送 了 一 个 Pragma: no-cache， 或 类 似 的 Cache-Control Tñ 
MISS 令 ， 命 令 代 理 必 须 去 获取 资源 
TCP_IMS_HIT 请 求 端 发 布 了 一 个 条 件 请 求 ， 对 资源 的 已 缓存 副本 进行 验证 








TCP_SWAPFAIL_MISS 代理 认为 资源 位 于 缓存 中 ,但 出 于 某 些 原因 无 法 访问 该 资源 


TCP_NEGATIVE_HIT 返回 已 缓存 的 响应 ,但 响应 是 否定 的 已 缓存 响应 。Squid 支持 对 资源 错误 信 
息 的 缓存 (比如 ,缓存 404 Not Found 响应 )。 这 样 ， 如 果 有 多 条 对 某 无 效 
资源 的 请 求 都 经 过 这 个 代理 缓存 ， 就 可 以 由 这 个 代理 缓存 提供 错误 信息 























































































































TCP_MEM_HIT 资源 的 有 效 副 本 是 由 缓存 提供 的 ， 资 源 位 于 代理 缓存 的 内 存 中 (与 必须 访 
问 磁盘 才能 获取 已 缓存 资源 的 方式 相反 ) 

TCP_DENIED 对 此 资源 的 请 求 被 否决 了 ， 可 能 是 请 求 端 没有 请 求 此 资源 的 权利 

TCP_OFFLINE_HIT 所 请 求 的 资源 是 在 离线 状态 下 从 缓存 中 解析 出 来 的 。Squid (或 另 一 个 使 用 
此 格式 的 代理 ) 处 于 离线 模式 时 ， 资 源 是 未 经 验证 的 

UDP * UDP_* 代码 说 明 请 求 是 通过 到 代理 的 UDP 接口 收 到 的 。HTTP 通常 会 使 用 
TCP 传输 协议 ， 因 此 这 些 请 求 使 用 的 都 不 是 HTTP 协议 

UDP_HIT 资源 的 有 效 副 本 是 由 缓存 提供 的 

UDP_MISS 资源 不 在 缓存 中 

UDP_DENIED 对 此 资源 的 请 求 被 否决 了 ， 可 能 是 由 于 请 求 端 没 有 请 求 此 资源 的 权限 

UDP_INVALID 代理 收 到 的 请 求 是 无 效 的 

UDP_MISS_NOFETCH Squid 在 特定 的 操作 模式 下 ， 或 在 缓存 常见 错误 的 缓存 中 使 用 。 会 返回 缓存 
未 命中 ， 而 且 也 没有 获得 资源 








NONE 有 时 与 错误 信息 一 起 记录 
TCP_CLIENT_REFRESH 参见 TCP_CLIENT_REFRESH_MISS 


TCP_SWAPFAIL 参见 TCP. SWAPFAIL MISS 
UDP_RELOADING 参见 UDP_MISS_NOFETCH 





a: Squid 有 自己 的 用 于 发 起 这 些 请 求 的 协议 : ICP。 这 是 缓存 到 缓存 的 请 求 所 使 用 的 协议 。 更 多 信息 请 参 
JL http:/www.squid-cache.org。 
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21.3 命中 率 测量 

原始 服务 器 通常 会 出 于 计 费 的 目的 保留 详细 的 日 志 记 录 。 内 容 提 供 者 需要 知道 
URL 的 受 访 频率 ， 广 告 商 需要 知道 广告 的 出 现 频 率 ， 网 站 作者 需要 知道 所 编写 的 
内 容 的 受 欢迎 程度 。 客 户 端 直接 访问 Web 服务 器 时 ,日 志 记 录 可 以 很 好 地 跟踪 这 


些 信息 。 


但 是 ， 缓 存 服务 器 位 于 客户 端 和 服务 器 之 间 ， 用 于 防止 服务 器 同时 处 理 大 量 访问 请 
求 ”( 这 正 是 缓存 的 目的 ) 。 缓 存 要 处 理 很 多 HTTP 请 求 ， 并 在 不 访问 原始 服务 器 的 
情况 下 满足 它们 的 请 求 ， 服 务 器 中 没有 客户 端 访问 其 内 容 的 记录 ， 导 致 日 志文 件 中 
出 现 遗 漏 。 


由 于 日 志 数 据 会 遗失 ， 所 以 ， 内 容 提 供 者 会 对 其 最 重要 的 页 面 进行 缓存 清除 (cache 
bust) 。 缓 存 清除 是 指 内 容 提供 者 有 意 将 某 些 内 容 设置 为 无 法 缓存 ， 这 样 ， 所 有 对 此 
内 容 的 请 求 都 会 被 导向 原始 服务 器 。 于 是 ， 原 始 服 务 器 就 可 以 记录 下 访问 情况 了 。 
不 使 用 缓存 可 能 会 生成 更 好 的 日 志 ， 但 会 减缓 原始 服务 器 和 网 络 的 请 求 速度 ， 并 增 
加 其 负荷 。 


由 于 代理 缓存 (及 一 些 客户 端 ) 都 会 保留 自己 的 日 志 ， 所 以 如 果 服务 器 能 够 访问 这 
些 日 志 (或 者 至 少 有 一 种 粗略 的 方式 可 以 判断 代理 缓存 会 以 怎样 的 频率 提供 其 内 
容 )， 就 可 以 避免 使 用 缓存 清除 。 命 中 率 测 量 协 议 是 对 HTTP 的 一 种 扩展 ， 它 为 这 个 
问题 提供 了 一 种 解决 方案 。 命 中 率 测 量 协议 要 求 缓存 周期 性 地 向 原始 服务 器 汇报 缓 
存 访 问 的 统计 数据 。 


RFC 2227 详细 定义 了 命中 率 测 量 协 议 。 本 市 将 详细 介绍 此 协议 。 




















21.3.1 概述 
命中 率 测量 协议 定义 了 一 种 HTTP 扩展 ， 它 提供 了 一 些 基本 的 功能 ， 绥 存 和 服务 器 
可 以 实现 这 些 功 能 来 共享 访问 信息 ， 规 范 已 缓存 资源 的 可 使 用 次 数 。 


缓存 给 日 志 访 问 带 来 了 问题 ， 命 中 率 测 量 并 不 是 这 个 问题 的 完整 解决 方案 ， 但 它 确 
实 提供 了 一 种 基本 方式 ， 以 获取 服务 器 希望 跟踪 的 度量 值 。 命 中 率 测量 协议 并 没有 
(而 且 可 能 永远 都 不 会 ) 得 到 广泛 的 实现 或 应 用 。 也 就 是 说 ， 在 维护 缓存 性 能 增益 的 
同时 ， 像 命中 率 测量 这 样 的 合作 方案 会 给 出 一 些 提 供 精确 访问 统计 信息 的 承诺 。 希 
望 这 会 推动 命中 率 测量 协议 的 实现 ， 而 不 是 把 内 容 标 记 为 不 可 缓存 的 。 














注 3: 回想 一 下 ， 儿 平 每 个 浏览 器 都 会 有 一 个 缓存 。 
注 4: 第 7 章 说 明了 怎样 将 HTTP 响应 标记 为 不 可 缓存 的 。 
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21.3.2 Meter 首部 


命中 率 测量 扩展 建议 使 用 新 增加 的 首部 Meter， 缓 存 和 服务 器 可 以 通过 它 在 相互 间 
传输 与 用 法 和 报告 有 关 的 指令 ， 这 与 用 来 进行 缓存 指令 交换 的 Cache-Control 首 
部 很 类 似 。 


表 21-10 列 出 了 定义 的 各 种 指令 和 谁 可 以 在 Meter 首部 传输 这 些 指令 。 


表 21-10 ”命中 率 测量 指令 






















































































E S 缩 5 执行 者 描 jË 

will-report-and-limit w 缓存 缓存 可 以 报告 使 用 情况 并 遵循 服务 器 指定 的 所 有 使 
用 限制 

wont-report x 缓存 缓存 可 以 遵循 使 用 限制 ， 但 不 报告 使 用 情况 

wont-limit y 缓存 缓存 可 以 报告 使 用 情况 但 不 会 限制 使 用 

count c 缓存 报告 指令 ， 以 uses/reuses 整数 的 形式 说 明 。 比 
如 ; count=2/4 * 

max-uses u 服务 器 允许 服务 器 指定 某 响 应 可 被 缓存 使 用 的 最 大 次 数 。 
比如 : max-uses=100 

max-reuses r 服务 器 允许 服务 器 指定 某 响应 可 被 缓存 重用 的 最 大 次 数 。 
比如 : max-reuses=100 

do-report d 服务 器 服务 器 要 求 代理 发 送 使 用 报告 

dont-report e 服务 器 服务 器 不 要 求 使 用 汇报 

timeout t 服务 器 允许 服务 器 指定 对 某 资源 进行 计量 的 超时 时 间 。 缓 
存 应 该 在 指定 的 超时 时 间 ， 或 在 此 时 间 之 前 发 送 报 








告 ,允许 有 1 分 钟 的 误差 。 超 时 是 以 分 钟 为 单位 
的 。 比 如 : timeout=60 


wont-ask n 服务 器 服务 器 不 需要 任何 计量 信息 


a; 命中 率 测量 定义 了 一 个 use， 用 一 个 响应 来 满足 请 求 ， 还 定义 了 一 个 reuse， 对 客户 端 请 求 进行 再 验证 。 



































图 21-1 给 出 了 一 个 执行 中 的 命中 率 测 量 实例 。 事 务 的 第 一 部 分 就 是 客户 端 和 代理 组 
存 之 间 一 个 普通 的 HTTP 事务 ， 但 在 代理 请 求 中 ， 要 注意 有 插入 的 Meter 首部 和 来 
自 服务 器 的 响应 。 这 里 ， 代 理 正 在 通知 服务 器 它 可 以 进行 命中 率 测量 ， 作 为 回应 ， 
服务 器 则 请 求 代理 报告 它 的 命中 次 数 。 

从 客户 端的 角度 来 看 ， 请 求 正常 结束 了 ， 代 理 开始 代表 服务 器 跟踪 该 请 求 资源 的 命 
中 次 数 。 稍 后 ， 代 理会 尝试 与 服务 器 再 次 验证 资源 。 代 理会 在 发 送 给 服务 器 的 条 件 
请 求 中 岁入 它 跟 踪 记 录 的 计量 信息 。 
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请 求 报 文 
GET http://joes-hardware.com/ HTTP/1.1 


Host: www.joes-hardware.com 
Accept: * 

















RE 
将 响应 发 送 给 客户 端 ， 缓 丰 
起 来 ， 然 后 用 于 后 继 的 请 求 




















REC 





GET / HTTP/1.1 

Host: www.joes-hardware.com 
Meter: will-report-and-limit 
Connection: Meter 














mod www.joes-hardware.com 





cci 响应 报 文 


























HTTP/1.1 200 OK 

Date: Fri, 06 Dec 1996 18:44:29 GMT 
Content-length: 3152 

Content-type: text/html 






































客户 端 Connection: Meter 
HTTP/1.1 200 OK ETag: "v1.27 
Date: Fri, 06 Dec 1996 18:44:29 GMT | | Meter: do-report 
Content-length: 3152 
Content-type: text/html [...] 
[ss] 
稍 后 ， 缓 存 对 响应 进行 再 pa tu 
验证 ， 同 时 报告 命中 次 数 一 一 
GET / HITP/1.13 | > 
Host: www.joes-hardware.com 
Meter: 12/4 ^ 
If-None-Match: "v1.27" "d 
Connection: Meter oo 
v www.joes-hardware.com 
"x HTTP/1.1 304 Not Modified 
"d [es] 
+ 
图 21-1 命中 率 测量 示例 


21.4 关于 隐私 的 考虑 


日 志 记 录 实 际 上 就 是 服务 器 和 代理 执行 的 一 项 管理 功能 ， 所 以 整个 操作 对 用 户 来 说 





都 是 透明 的 。 














通常 ， 用 户 甚至 都 不 清楚 他 们 的 HTTP 事务 已 被 记录 一 一 实际 上 ， 很 


多 用 户 可 能 甚至 都 不 知道 他 们 访问 Web 上 的 内 容 时 是 在 使 用 HTTP 协议 。 


Web 应 用 程序 的 开发 者 和 管理 者 要 清楚 跟踪 用 户 的 HTTP 事务 可 能 带 来 的 影响 。 他 
可 以 根据 获取 的 信息 收集 很 多 有 关 用 户 的 情况 。 很 显然 ， 这 些 信息 可 以 用 于 不 恨 目 


的 一 一 歧视 、 骚 扰 、 勒 索 等 。 进 行 日 志 记 录 的 Web 服务 器 和 代理 一 定 要 注意 保护 其 


终端 用 户 的 隐私 。 


























志 记 录 与 使 用 情况 跟踪 
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有 些 情况 下 ， 比 如 在 工作 环境 中 ， 跟 踪 某 用 户 的 使 用 情况 以 确保 他 没有 偷懒 是 可 行 
的 ， 但 管理 员 也 应 该 将 监视 大 家 事务 处 理 的 事情 公之于众 。 





简单 来 说 ， 日 志 记录 对 管理 者 和 开发 者 来 说 都 是 很 有 用 的 工具 。 只 是 要 清楚 在 没有 
获得 用 户 许可 ， 或 在 其 不 知情 的 情况 下 ， 使 用 记录 其 行为 的 日 志 可 能 会 存在 侵犯 隐 
私 的 问题 。 


21.5 更 多 信息 


更 多 有 关 日 志 记 录 的 信息 ， 请 参见 以 下 资源 。 





。 http://httpd.apache.org/docs/logs.html 
“Apache HTTP Server: Log Files" (“Apache HTTP 服务 器 : 日 志文 件 ”)。Apache 
HTTP 服务 器 项 目 网 站 。 


° http://www.squid-cache.org/Doc/FAQ/FAQ-6.html 
“Squid Log Files" (“Squid Hz XE"), Squid 代理 缓存 网 站 。 


° http://www.w3.org/Daemon/User/Config/Logging.html#common-logfile-format 
“Logging Control in W3C httpd”(“W3C httpd 中 的 日 志 记 录 控 制 ”)。 


° http://www.w3.org/TR/WD-logfile.html 
“Extended Log File Format”(“ 扩 展 日 志文 件 格 式 ”)。 


° http://www.ietf.org/rfc/rfc2227 .txt 
RFC 2227, J. Mogul 和 P. Leach 编 写 的 “Simple Hit-Metering and Usage- 
Limiting for HTTP”(“ 简 单 的 HTTP 命中 率 测 量 和 使 用 限制 ”)。 
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第 六 部 分 





本 书 附录 集中 包含 了 一 些 有 用 的 参考 表格 、 背 景 信息 以 及 关于 HTTP 结构 和 实现 各 





种 主题 的 指南 。 


° 附录 A 
° 附录 B 
° 附录 C 
。 附录 D 
° MXE 
° 附录 下 
° 附录 GG 
° 附录 了 HH 


URI 方案 

HTTP 状态 码 

HTTP 首部 参考 
MIME 类 型 

Base-64 编码 

摘要 认证 

语言 标记 

MIME 字符 集注 册 表 


附 录 














附录 A 





URI 方 案 














Sosa iid eiie 一 般 来 说 ， Ce a E 
说 明 的 URI 2; SE 6H — 86, [E 8f Sc 48 bA ETAR (特别 是 Netscape 和 
Microsoft) 开发 ， 但 未 被 正式 发 布 的 方案 得 到 了 广泛 应 用 。 


W3C 维护 了 一 个 URI 方案 列 表 ， 可 以 通过 以 下 地 址 访问 : 
http://www.w3.org/Addressing/schemes.html 

IANA 也 维护 了 一 个 URL 方案 的 列表 ， 网 址 是 : 
http://www.iana.org/assignments/uri-schemes 


3€ A-1 介绍 了 部 分 已 经 提出 的 和 正在 使 用 的 方案 。 注 意 ， 表 中 大 约 有 90 个 方案 
其 中 很 多 都 没有 得 到 广泛 应 用 ， 而 且 有 些 已 被 废弃 。 


表 A-1 在 W3C 注 册 的 URI 方 案 
方 案 描 述 RFC 
about 研究 浏览 器 各 方面 特性 的 Netscape 方案 。 比 如 说 ,使 用 about 自身 
的 效果 就 跟 选 择 Navigator 的 Help 菜单 中 的 About Communicator 
一 样 ，about:cache 显示 的 就 是 磁盘 缓存 的 统计 数据 ，about:plugins 


显示 的 是 与 已 配置 的 插件 有 关 的 信息 。 其 他 浏览 器 ， 比 如 微软 的 
Internet Explorer， 也 使 用 了 这 个 方案 




















acap 应 用 程序 配置 访问 协议 2244 











afp 用 于 使 用 AFP (Apple Filing Protocol, 3A X fEEMX) 提供 的 文 
件 共 享 服务 ， 是 作为 已 过 期 的 IETF draft-ietf-svrloc-afp-service-01. 
txt 的 一 部 分 定义 的 


afs 保留 ， 以 备 Andrew 文件 系统 将 来 使 用 
callto 初始 化 微软 的 NetMeeting 会 议 的 会 话 ， 比 如 : callto:ws3.joes- 


hardware.com/joe @joes-hardware.com 














chttp Real 网 络 公 司 定义 的 CHTTP 缓存 协议 。RealPlayer 没有 缓存 
HTTP 传输 的 所 有 条 目 。 作 为 一 种 替代 方式 ， 可 以 在 文件 的 URL 
中 使 用 chttp:// 代替 http:/ 来 说 明 要 缓存 的 文件 。RealPlayer 在 
SMIL 文件 中 读 到 CHTTP URL 时 ， 首 先 会 查看 磁盘 的 缓存 中 是 否 




















有 该 文件 。 如 果 没 有 此 文件 ， 就 通过 HTTP 请 求 此 文件 ， 并 将 其 
存储 在 自己 的 缓存 中 
cid 在 电子 邮件 中 通过 [MIME] 传送 Web 页 面 及 其 相关 图 片 时 ， 需 2392 























要 一 个 URL 方案 允许 HTML 引用 报 文 中 所 含 图 片 或 其 他 数据 2111 
Content-ID URL, E} cid， 就 用 于 这 个 目的 


clsid 允许 引用 微软 的 OLE/COM 类 。 用 于 向 Web 页 面 中 插入 活动 对 象 





















































522 | 附录 人 入 


( 续 ) 











































































































































































































万 案 描 述 RFC 
data 允许 将 一 些小 的 常量 数据 条 目 作 为 “即时 ”数据 包含 在 内 。 这 2397 
个 URL 会 将 text/plain 字符 串 Apbrief note 编码 为 : data:A%20 
brief%20note 
date 支持 日 期 的 方案 建议 ， 比 如 date:1999-03-04T20:42:08 
dav 为 了 确保 基于 此 规范 的 互 操 作 的 正确 性 ，IANA 必须 保留 以 DAV: 2518 
fil opaquelocktoken: 开头 的 URI 名 字 空 间 ， 供 这 个 规范 和 它 的 修 
订 版 本 以 及 相关 的 WebDAV 规范 使 用 
dns 供 REBOL 软件 使 用 。 
参见 http://www.rebol.com/users/valurl.html 
eid 外 部 ID 方案 提供 了 一 种 机 制 ， 本 地 应 用 程序 可 以 通过 这 种 机 制 引 
用 通过 其 他 非 URL 方案 获取 的 数据 。 这 个 方案 试图 提供 一 种 通用 
的 转 义 机 制 ， 以 便 那些 无 法 提出 自己 方案 的 专业 应 用 程序 访问 信 
息 。 这 个 URI 的 使 用 方式 存在 争议 。 参 见 http://www.ics.uci.edu/ 
pub/ietf/uri/draft-finseth-url-00.txt 
fax 方案 fax 描述 了 一 条 连接 ， 此 连接 连 至 可 处 理 电 传 的 终端 (传真 机 ) 2806 
file 在 特定 主机 上 标识 出 可 访问 的 文件 。 其 中 可 以 包含 主机 名 ， 但 这 1738 
个 方案 的 特殊 性 在 于 它 没 有 为 此 类 文件 指定 因特网 协议 或 访问 方 
式 ; 这 样 ， 它 在 主机 间 网 络 协议 中 的 效用 就 会 受到 限制 
finger finger URL 的 格式 如 下 : finger://host[:port] s 
«request» 必须 与 RFC 1288 的 请 求 格式 一 致 。 参 见 http://www.ics. 
us ins a u sp s. 
freenet 3X HX rB3R HZ X fiL Z Sn f 189 URI, # WL http:// 
freenet.sourceforge.net 
ftp 文件 传输 协议 方案 1738 
gopher 古老 的 gopher 协议 1738 
gsm-sms 用 于 GSM 移动 电话 短信 业务 的 URI, 
h323, h324 多 媒体 会 议 的 URI 方 案 
参见 http://www.ics.uci.edu/pub/ietf/uri/draft-cordell-sg16-conv-url-00.txt 
hdl Handle 是 个 被 广泛 应 用 的 系统 ， 用 于 分 配 、 管 理 数字 对 象 和 因 特 
网 上 的 其 他 资源 ， 并 将 其 解析 成 名 为 handles 的 永久 标识 符 。 可 以 
将 handle 作为 URN 使用。 参见 http://www.handle.net 
hnews HNEWS 是 NNTP 新 闻 协 议 的 一 个 HTTP 隧道 变 体 。hnews URL 
语法 设计 与 当前 常用 的 新 闻 URL 方案 兼容 。 参 见 http://www.ics. 
uci.edu/pub/ietf/uri/draft-stockwell-hnews-url-00.txt 
http HTTP 协议 。 更 多 信息 请 参见 本 书 2616 
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PF £ 描 xh RFC 

https SSL 上 的 HTTP, 
参见 http://sitesearch.netscape.com/eng/ssl3/draft302.txt 

iioploc CORBA 扩展 。 可 互 操作 的 名 字 服 务 定 义 了 一 种 URL 格式 的 对 象 
引用 一 一 iioploc， 可 以 将 其 输入 一 个 程序 中 ， 以 获取 包括 名 字 服 务 
在 内 的 已 定义 远程 服务 。 比 如 ， 以 下 iioploc 标识 符 : 
iioploc://www.omg.org/NameService 就 表示 运行 在 IP 地 址 与 域名 
www.omg.org 相对 应 的 机 器 上 的 CORBA 名 字 服 务 。 参 见 http:// 
www.omg.org 

ilu ILU (Inter-Language Unification， 跨 语言 统一 ) 系统 是 一 个 多 语 
言 对 象 接口 系统 。ILU 提供 的 对 象 接口 隐藏 了 不 同 语言 、 不 同 地 址 
空间 和 不 同 操作 系统 之 间 的 实现 差异 。 可 以 通过 ILU， 用 经 过 良好 
说 明 的 语言 无 关 接 口 来 构建 多 语言 的 面向 对 象 库 (类 库 )。 还 可 以 
将 其 用 于 实现 分 布 式 系统 。 
参见 ftp://parcftp.parc.xerox.com/pub/ilu/ilu.html 

imap IMAP URL 方案 用 于 分 配 IMAP 服务 器 、 邮 箱 、 报 文 、MIME 主 2192 
f& [MIME]， 在 因特网 主机 上 搜索 可 以 通过 IMAP 协议 访问 的 程序 

IOR CORBA 的 互 操作 对 象 引用 。 
请 参见 http//www.omg.org 

irc irc URL 方案 用 于 表示 IRC (Internet Relay Chat， 因 特 网 中 继 聊 
X) 服务 器 或 者 IRC 服务 器 上 的 独立 实体 (信道 或 人 )。 
参见 http://www.w3.org/Addressing/draft-mirashi-url-irc-01.txt 

isbn 建议 用 于 ISBN 书籍 参考 的 方案 。 
参见 http://lists.w3.ore/Archives/Public/www-talk/1991NovDec/0008. 
html 

java 用 来 识别 Java 类 

javascript 网 景 的 浏览 器 会 处 理 javascript URL， 如 果 冒 号 ( ; ) 后 面 有 表达 
式 ， 则 计算 它 的 值 ， 只 要 表达 式 字符 串 的 值 不 是 未 定义 的 ， 就 会 
加 载 包 含 了 这 个 值 的 页 面 

jdbc 用 于 Java SQL API 

ldap 允许 因特网 客户 端 直接 访问 LDAP 协议 2255 

lid 本 地 标识 符 方案 。 
参见 draft-blackketter-lid-00 

lifn UTK 开发 的 批量 文件 分 发 分 布 式 存储 系统 所 使 用 的 lifn (location- 
independent file name， 位 置 无 关 文 件 名 ) 

livescript JavaScript 的 曾 用 名 
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方 案 描 述 RFC 
Irq 参见 h323 
mailto URL 方案 mailto 用 于 访问 单个 用 户 或 服务 的 因特网 邮件 地 址 2368 
mailserver 1994 ~ 1995 年 的 老 建 议 ， 支 持 将 整 条 报 文 都 编码 到 一 个 URL 中 
K, 这样 (比如 说 ) URL 可 以 自动 向 邮件 服务 器 发 送 订阅 邮件 列 
表 的 电子 邮件 了 
md5 MD5 是 一 种 密码 校 验 和 
mid mid 方案 用 电子 邮件 报 文 的 message-id (一 部 分 ) 来 引用 一 个 特定 2392 
的 报 文 2111 
mocha 参见 javascript 
modem modem 方案 描述 了 一 条 连接 ， 连 接 到 能 够 处 理 输入 数据 呼叫 的 终 2806 
端 上 去 
mms, mmst, | MMS (Microsoft Media Server， 微 软 媒体 服务 器 ) 以 流 方式 传送 
mmsu ASF (Active Streaming Format, 活动 流 格式 ) 文件 时 使 用 的 方案 。 
强制 使 用 UDP 传输 时 ， 使 用 mmsu 方案 。 强 制 使 用 TCP 传输 时 ， 
使 用 mmst 方案 
news news URL 方案 指 的 是 USENET 新 闻 中 的 新 闻 组 ， 或 独立 的 文章 。 1738 
news URL 使 用 下 列 两 种 格式 之 一 ， 1036 
news:<newsgroup-name> 或 news: «message-id» 
nfs 指 的 是 NFS 服务 器 上 的 文件 和 目录 2224 
nntp 另 一 种 引用 news 文章 的 方法 ， 指 定 NNTP 服务 器 上 的 news 文章 1738 
时 很 有 用 。nntp URL 看 起 来 如 下 所 示 : 977 
nntp://<host>:<port>/<newsgroup-name>/<article-num> 
注意 ， 尽 管 nntp URL 为 文章 资源 指定 了 唯一 的 位 置信 息 ， 但 现在 
因特网 上 大 部 分 NNTP 服务 器 都 配置 为 只 允许 从 本 地 客户 端 访问 ， 
nntp URL 因此 就 无 法 指定 全 球 可 访问 的 资源 了 。 因 此 ，URL 的 
news 格式 更 常 作为 识别 新 闻 性 文章 的 一 种 方式 
opaquelocktoken | 以 URI 形式 表示 的 WebDAV 锁定 令 牌 ， 用 于 标识 特定 锁 的 。 每 个 
RHAI LOCK 操作 都 会 在 响应 主体 的 lockdiscovery 特性 中 返回 锁 
定 令 牌 ， 也 可 以 通过 资源 的 锁 发 现 操作 找到 它 。 参 见 RFC 2518 
path path 方案 定义 了 一 个 统一 的 层次 化 命名 空间 。 在 这 个 空间 中 ，path 
URN 就 是 些 组 件 和 可 选 的 不 透明 字符 串 组 成 的 序列 。 
参见 http://www.hypernews.org/~liberte/www/path.html 
phone 在 “电话 的 URL” 中 使 用 。 在 RFC 2806 中 被 tel: 取代 
pop POP URL 指定 了 一 个 POP 电子 邮件 服务 器 ， 一 个 可 选 的 端口 号 、 2384 








认证 机 制 、 认 证 ID 和 /或 授权 ID 
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5 X Ho 述 RFC 
pnm Real 网 络 公司 的 流 媒 体 协议 
pop3 POP3 URL 方案 允许 URL 指定 一 个 POP3 服务 器 ， 人 允许 其 他 协议 
使 用 通用 的 “用 于 邮件 访问 的 URL” 取 代 对 POP3 的 显 式 引用 。 
在 已 过 期 的 draft-earhart-url-pop3-00.txt 中 定义 
printer 用 于 服务 定位 标准 的 抽象 URL, 
参见 draft-ietf-srvloc-printer-scheme-02.txt 
prospero 通过 prospero 目录 服务 访问 的 名 字 资 源 1738 
Tes 微软 的 方案 ， 指 定 了 一 个 要 从 某 模 块 中 获取 的 资源 。 包 含 一 个 字 
符 串 或 数字 资源 类 型 和 一 个 字符 串 或 数字 ID 
rtsp 实时 流 协议 ， 是 Real 网 络 公司 现代 流 媒体 控制 协议 的 基础 协议 2326 
rvp RVP 集合 点 协议 的 URL， 用 于 在 某 计 算 机 网 络 上 发 布 用 户 到 来 的 
通知 。 参 见 draft-calsyn-rvp-01 
rwhois RWhois 是 在 RFC 1714 和 RFC 2167 中 定义 的 因特网 目录 访问 协 
议 。RWhois URL 将 rwhois 的 直接 访问 权 赋 予 了 客户 端 。 
参见 http://www.rwhois.net/rwhois/docs/ 
TX 一 种 结构 ， 人 允许 远程 图 像 应 用 程序 在 Web 页 面 中 显示 数据 。 
参见 http://www.w3.org/People/danield/papers/mobgui/ 
sdp sdp (session description protocol， 会 话 描述 协议 ) URL, ZW 
RFC 2327 
service service 方案 可 以 为 任意 网 络 服务 提供 访问 信息 。 这 些 URL 为 基于 2609 
客户 端的 网 络 软件 提供 了 一 种 可 扩展 的 框架 ， 以 获取 使 用 网 络 服 
务 所 需 的 配置 信息 
Sip sip* 族 方案 用 于 建立 使 用 sip (session initiation protocol， 会 话 发 2543 
起 协议 ) 的 多 媒体 会 议 
shttp S-HTTP 是 HTTP 的 超 集 ， 用 于 保护 HTTP 连接 ， 它 提供 了 大 量 
机 制 用 以 实现 保密 性 、 认 证 功能 和 完整 性 。S-HTTP 没有 被 广泛 采 
用 ， 主 要 是 被 HTTPS (经 过 SSL 加 密 的 HTTP) 取代 了 。 
参见 http://www.homeport.org/~adam/shttp.html 
snews 经 SSL 加 密 的 news 
STANF 用 于 可 靠 网 络 文件 名 的 老 建 议 。 与 URN 有 关 。 
参见 http://Web3.w3.org/Addressing/#STANF 
t120 参见 h323 
tel 通过 电话 网 打 电 话 的 URL 2806 
telephone 用 于 tel 的 早期 草案 中 
526 | 附录 A 
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telnet KÆ T TRER H Telnet 协议 访问 的 交互 式 业务 。Telent URL 的 格 1738 
式 如 下 所 示 : 
telnet://<user>:<password>@<host>:<port>/ 
tip 支持 TIP 原子 化 的 因特网 事务 处 理 2371 
2372 
tn3270 根据 ftp://ftp.isi.edu/in-notes/iana/assignments/url-schemes 保留 
tv TV URL 命名 了 一 个 特定 的 电视 广播 信道 2838 
uuid UUID (通用 唯一 标识 符 ) 不 包含 与 位 置 有 关 的 信息 。 也 称 为 
GUID (全 球 唯一 标识 符 )。 由 一 个 128 位 的 唯一 ID 组 成 。 它 和 
URN 一 样 ， 不 会 随时 间 发 生变 化 。 要 使 用 无 法 或 不 应 该 依赖 于 
特定 的 物理 根 名 字 空 间 (比如 一 个 DNS 名 称 ) 的 通用 标识 符 时 ， 
UUID URI 是 很 有 用 的 。 
参见 draft-kindel-uuid-uri-00.txt 
urn 持久 的 、 与 位 置 无 关 的 URN 2141 
vemmi 允许 VEMMI (万 用 多 媒体 接口 ) 客户 端 软件 和 VEMMI 终端 连接 2122 
VEMMI 兼容 的 服务 。VEMMI 是 一 种 在 线 多 媒体 应 用 服务 的 国际 
标准 
Videotex 允许 videotex 客户 端 软件 或 终端 连接 与 ITU-T 和 ETSI videotex 标 
HEREZH videotex 服务 。 
参见 http://www.ics.uci.edu/pub/ietf/uri/draft-mavrakis-videotex-url- 
spec-01.txt 
view-source 网 景 的 Navigator 的 源码 查看 器 。 这 些 view-source URL 可 以 显示 
用 JavaScript ^E X HJ HTML 
wais 广 域 信 息 服 务 一 一 一 种 早期 搜索 引擎 形式 1738 
whois++ WHOIS++ 简单 因特网 目录 协议 的 URL。 1835 
参见 http://martinh.net/wip/whois-url.txt 
whodp WhoDP (Widely Hosted Object Data Protocol， 广 泛 托管 对 象 数据 
协议 ) 用 于 沟通 大 量 动态 、 可 重 定位 对 象 的 当前 位 置 和 状态 传递 。 
WhoDP 程序 通过 “订阅 ”定位 对 象 ， 接 收 与 某 对 象 有 关 的 信息 ， 
并 “发 布 ” 这 些 信息 ， 控 制 此 对 象 的 位 置 和 可 见 状态 
z39.50r, z39.50s | Z39.50 会 话 与 检索 URL。Z39.50 是 一 种 信息 检索 协议 ， 不 能 很 好 2056 














地 适用 于 主要 为 获取 无 状态 数据 而 设计 的 检索 模式 。 它 将 通用 的 
用 户 查 询 设计 为 面向 会 话 的 多 步 任务 ， 服 务 器 在 继续 处 理 任务 之 
前 ， 会 向 客户 端 请 求 额外 的 参数 ， 因 此 每 一 步 任务 都 可 能 被 临时 
挂 起 
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附录 B 是 HTTP 状态 码 及 其 含 


B.1 


状态 码 分 类 


义 的 快速 


HTTP 状态 码 分 为 5 类 ， 如 表 B-1 所 示 。 


=, 








表 B-1 状态 码 分 类 
总 体 范 围 已 定义 范围 类 a 
100~199 100~101 信息 
200~299 200~206 成 功 
300~399 300~305 重 定向 
400~499 400~415 客户 端 错误 
500~599 500~505 服务 器 错误 


B.2 


状态 码 





zx B-2 是 HTTP/1.1 规范 定义 的 所 有 状态 码 的 快速 参考 ， 表 中 概述 了 每 种 状态 码 及 
其 含义 。3.4 节 曾 详细 地 介绍 了 这 些 状态 码 及 其 用 法 。 





































































































表 B-2 状态 码 
状态 码 原因 短语 € x 
100 Continue (继续 ) 收 到 了 请 求 的 起 始 部 分 ， 客 户 端 应 该 继续 请 求 
101 Switching Protocols (切换 协议 ) 服务 器 正 根据 客户 端的 指示 将 协议 切换 成 Update 
首部 列 出 的 协议 
200 OK 服务 器 已 成 功 处 理 请 求 
201 Created (已 创建 ) 对 那些 要 服务 器 创建 对 象 的 请 求 来 说 ， 资 源 已 创建 
xu 
202 Accepted (已 接受 ) 请 求 已 接受 ,但 服务 器 尚未 处 理 
203 Non-Authoritative Information (JERN | 服务 器 已 将 事务 成 功 处 理 ， 只 是 实体 首部 包含 的 信 
威信 息 ) 息 不 是 来 自 原始 服务 器 ， 而 是 来 自 资源 的 副本 
204 No Content (没有 内 容 ) 响应 报 文 包含 一 些 首部 和 一 个 状态 行 ， 但 不 包含 实 
体 的 主体 内 容 
205 Reset Content ( 重 置 内 容 ) 另 一 个 主要 用 于 训 览 器 的 代码 。 意 思 是 浏览 器 应 该 
重 置 当 前 页 面 上 所 有 的 HTML ke 
206 Partial Content (部 分 内 容 ) 部 分 请 求 成 功 
530 | 附录 B 










































































































































































状态 码 原因 短语 含 义 

300 Multiple Choices (多 项 选择 ) 客户 端 请 求 了 实际 指向 多 个 资源 的 URL。 这 个 代码 
是 和 一 个 选项 列表 一 起 返回 的 ， 然 后 用 户 就 可 以 选 
择 他 希望 使 用 的 选项 了 

301 Moved Permanently (永久 搬 离 ) 请 求 的 URL 已 移 走 。 响 应 中 应 该 包含 一 个 Location 
URL， 说 明 资源 现在 所 处 的 位 置 

302 Found (已 找到 ) 与 状态 码 301 类 似 ， 但 这 里 的 搬 离 是 临时 的 。 客 户 
端 应 该 用 Location 首部 给 出 的 URL 对 资源 进行 
临时 定位 

303 See Other (参见 其 他 ) 告诉 客户 端 应 该 用 另 一 个 URL 获取 资源 。 这 个 新 的 
URL 位 于 响应 报 文 的 Location 首部 

304 Not Modified (未 修改 ) 客户 端 可 以 通过 它们 所 包含 的 请 求 首部 发 起 条 件 请 
求 。 这 个 代码 说 明 资 源 未 发 生 过 变化 

305 Use Proxy (使 用 代理 ) 必须 通过 代理 访问 资源 ， 代 理 的 位 置 是 在 Location 
首部 中 给 出 的 

306 (未 用 ) 这 个 状态 码 当 前 并 未 使 用 

307 Temporary Redirect (临时 重 定向 ) 和 状态 码 301 类 似 。 但 客户 端 应 该 用 Location 首部 
给 出 的 URL 对 资源 进行 临时 定位 

400 Bad request. ( 坏 请 求 ) 告诉 客户 端 它 发 送 了 一 条 异常 请 求 

401 Unauthorized (未 授权 ) 与 适当 的 首部 一 起 返回 ， 在 客户 端 获得 资源 访问 权 
之 前 ， 请 它 进 行 身 份 认证 

402 Payment Required (要 求 付款 ) 当前 此 状态 码 并 未 使 用 ， 是 为 未 来 使 用 预 留 的 

403 Forbidden (禁止 ) 服务 器 拒绝 了 请 求 

404 Not Found (未 找到 ) 服务 器 无 法 找到 所 请 求 的 URL 

405 Method Not Allowed. (不 允许 使 用 的 | 请 求 中 有 一 个 所 请 求 的 URI 不 支持 的 方法 。 响 应 中 

方法 ) 应 该 包含 一 个 Allow 首部 ， 以 告知 客户 端 所 请 求 的 

资源 支持 使 用 哪些 方法 

406 Not Acceptable (无 法 接受 ) 客户 端 可 以 指定 一 些 参数 来 说 明 希 望 接 受 哪些 类 型 
的 实体 。 服 务 器 没有 资源 与 客户 端 可 接受 的 URL 相 
匹配 时 可 使 用 此 代码 

407 Proxy Authentication Required ( 要 | 和 状态 码 401 类 似 ， 但 用 于 需要 进行 资源 认证 的 代 

求 进 行 代理 认证 ) 理 服 务 器 

408 Request Timeout (请 求 超时 ) 如 果 客 户 端 完成 其 请 求 时 花费 的 时 间 太 长 ， 服 务 器 
可 以 回 送 这 个 状态 码 并 关闭 连接 

409 Conflict (冲突 ) 发 出 的 请 求 在 资源 上 造成 了 一 些 冲 突 
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状态 码 原因 短语 含 义 
410 Gone (消失 了 ) 除了 服务 器 曾 持 有 这 些 资 源 之 外 ， 与 状态 码 404 类 似 
411 Length Required (要 求 长 度 指 示 ) 服务 器 要 求 在 请 求 报 文中 包含 Content-Length 
首部 时 会 使 用 这 个 代码 。 发 起 的 请 求 中 若 没 有 
Content-Length 首部 ， 服 务 器 是 不 会 接受 此 资源 
请 求 的 
412 Precondition Failed (先决 条 件 失 败 ) | 如 果 客 户 端 发 起 了 一 个 条 件 请 求 ， 如 果 服 务 器 无 法 
满足 其 中 的 某 个 条 件 ， 就 返回 这 个 响应 码 
413 Request Entity Too Large (请 求实 体 | 客户 端 发 送 的 实体 主体 部 分 比 服务 器 能 够 或 者 希望 
太 大 ) 处 理 的 要 大 
414 Request URI Too Long ( 请 求 URI | 客户 端 发 送 的 请 求 所 携带 的 请 求 URL 超过 了 服务 器 
太 长 ) 能 够 或 者 希望 处 理 的 长 度 
415 Unsupported Media Type (不 支持 的 | 服务 器 无 法 理解 或 不 支持 客户 端 所 发 送 的 实体 的 内 
媒体 类 型 ) 容 类 型 
416 Requested Range Not Satisfiable (所 | 请 求 报 文 请 求 的 是 某 范 围 内 的 指定 资源 ， 但 那个 范 
请 求 的 范围 未 得 到 满足 ) 围 无 效 ， 或 者 未 得 到 满足 
417 Expectation Failed (无 法 满足 期 望 ) 请 求 的 Expect 首部 包含 了 一 个 预期 内 容 ， 但 服务 
器 无 法 满足 
500 Internal Server Error (内 部 服务 器 | 服务 器 遇 到 了 一 个 错误 ， 使 其 无 法 为 请 求 提供 服务 
Hx) 
501 Not Implemented (未 实现 ) 服务 器 无 法 满足 客户 端 请 求 的 某 个 功能 
502 Bad Gateway (网 关 故 障 ) 乍 为 代理 或 网 关 使 用 的 服务 器 遇 到 了 来 自 响 应 链 中 
上 游 的 无 效 响应 
503 Service Unavailable (未 提供 此 服务 ) | 服务 器 目前 无 法 为 请 求 提供 服务 ， 但 过 一 段 时 间 就 
可 以 恢复 服务 
504 Gateway Timeout (网 关 超时 ) 与 状态 码 408 类 似 ， 但 是 响应 来 自 网 关 或 代理 ， 此 网 
关 或 代理 在 等 待 另 一 台 服 务 器 的 响应 时 出 现 了 超时 
505 HTTP Version Not Supported (不 支 | 服务 器 收 到 的 请 求 是 以 它 不 支持 或 不 愿 支 持 的 协议 
持 的 HTTP 版 本 ) 版 本 表示 的 
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回想 起 第 一 个 HTTP 版 本 一 一 版 本 0.9， 还 是 挺 有 趣 的 ， 因 为 它 没 有 定义 任何 首部 。 
尽管 这 样 肯 定 存在 粗 端 ， 但 不 得 不 为 其 简洁 的 优雅 而 喷 喷 称奇 。 


好 吧 ， 回 到 现实 中 来 。 现 在 有 很 多 的 HTTP 首部 ， 有 一 些 是 规范 中 定义 的 ， 还 有 一 
些 是 对 规范 的 扩展 。 本 附录 提供 了 一 些 有 关 这 些 正式 首部 和 扩展 首部 的 背景 知识 ， 
你 还 可 以 将 其 作为 本 书 各 种 首部 的 索引 使 用 ， 说 明了 这 些 首部 的 概念 和 特性 是 在 正 
文 的 什么 地 方 讨论 的 。 这 些 首部 大 部 分 都 很 简单 、 直 接 ， 是 它们 之 间或 者 与 HTTP 
其 他 特性 之 间 的 交互 使 得 事情 变 得 比较 复杂 。 本 附录 为 所 列 首部 提供 了 一 些 背景 知 
识 ， 并 指导 用 户 参 阅 书 中 详细 讨论 的 对 应 章节 。 

本 附录 列 出 的 首部 是 从 HTTP 规范 、 相 关 文档 和 我 们 自己 使 用 HTTP 报 文 和 因特网 
上 各 种 服务 器 和 客户 端的 经 验 中 提取 出 来 的 。 


这 个 列表 远 远 称 不 上 完备 。Web 中 还 有 很 多 其 他 的 扩展 首部 ， 更 别 说 私有 内 部 网 
络 中 使 用 的 那些 首部 了 。 尽 管 如 此 ， 我 们 已 经 使 这 个 表 尽 可 能 地 完整 了 。 当 前 的 
HTTP/1.1 规范 和 官方 首部 及 其 规范 描述 参见 RFC 2616, 




















Accept 

客户 端 用 Accept 首部 来 通知 服务 器 可 以 接受 哪些 媒体 类 型 。Accept 首部 字段 的 值 
是 客户 端 可 以 使 用 的 媒体 类 型 列表 。 如 果 Web DI Và as 76i ws Web 上 所 有 的 多 媒 
体 对 象 类 型 ， 就 可 以 在 请 求 中 包含 Accept 首部 ， 这 样 浏 览 器 就 不 会 去 下 载 它 无 法 
使 用 的 视频 或 其 他 对 象 类 型 了 。 

为 了 防止 服务 器 有 多 种 版 本 的 媒体 类 型 ， 还 可 以 在 Accept 首部 字段 中 包含 一 个 质 
量 值 (q ñ) 列表 ， 用 以 告知 服务 器 它 优选 哪 种 媒体 类 型 。 有 关内 容 协 商 和 a 值 的 


完整 讨论 参见 第 17 章 。 





类 型 请 求 首部 

注释 “*” 是 个 特殊 值 用 来 通 配 媒体 类 型 。 比 如 ,“*V*” 表 示 所 有 类 型 ， 
“image/x* ”表示 所 有 的 图 片 类 型 。 

举例 Accept: text/*, image/* 


Accept: text/*, image/gif, image/jpeg; q-1 





Accept-Charset 

客户 端 用 Accept-charset 首部 来 通知 服务 器 它 可 以 接受 哪些 字符 集 或 哪些 是 优选 
字符 集 。 这 个 请 求 首 部 的 值 是 个 字符 集 列 表 和 所 列 字 符 集 可 能 的 质量 值 。 当 服务 器 
上 有 以 多 种 可 接受 字符 集 表 示 的 文档 时 ， 可 以 通过 质量 值 告知 服务 器 哪个 字符 集 是 
优选 的 。 有 关内 容 协商 和 a 值 的 完整 讨论 参见 第 17 we, 
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类 型 请 求 首 部 

注释 与 Accept 首部 一 样 ,“*” 是 个 特殊 字符 。 如 果 有 “*”， 就 表示 除了 
显 式 地 用 值 设置 的 字符 集 之 外 的 所 有 字符 集 。 如 果 没 有 “*”， 那 么 值 
字段 中 没有 设置 的 所 有 字符 集 的 g 值 都 默认 为 零 ， 这 不 包括 字符 集 iso- 
latin-1， 它 的 默认 值 为 1。 





基本 语法 Accept-Charset: 1# ((charset | MO) [mt em mapan. "rev 
qvalue]) 
举例 Accept-Charset: iso-latin-1 





Accept-Encoding 

客户 端 用 Accept -Encoding 首部 米 各 知 服务 党 它 可 以 接受 哪些 编码 廊 式 。 如 果 服 
务 器 所 持 有 的 内 容 是 经 过 编码 的 〈 可 能 是 压缩 过 的 ) ， 这 个 请 求 首部 可 以 告诉 服务 器 
客户 端 是 否 会 接受 它 。 第 17 章 探 讨 了 Accept-Encoding 首部 。 


类 型 请 求 首 部 

基本 语法 Accept-Encoding: 14 ((content-coding | "*") [";" "q" 
=" qvalue]) 

举例 Accept-Encoding 2 


Accept-Encoding:gzip 
Accept-Encoding: compress;q-0.5, 


gzip;q-1 
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Accept-Language 


mS Accept 首部 一 样 ， 客 户 端 可 以 通过 Accept-Language 请 求 首 部 通知 服务 
器 可 接受 或 优选 哪些 语言 (比如 ， 内 容 所 使 用 的 自然 语言 )。 第 17 章 详尽 介绍 了 
Accept-Language 首部 。 


类 型 请 求 首部 

基本 语法 Accept-Language: 14 (language-range [";" "q" "=" qvalue]) 
language-range = ((1*8ALPHA * ("-" 1*8ALPHA)) | "*") 

举例 Accept-Language: en 


Accept-Language: en;q-0.7, en-gb;qz0.5 





注 1: 这 并 不 是 印刷 错误 。 它 
Encoding 首部 ， 就 涪 明 只 能 接受 未 编码 的 内 容 。 





空 的 Accept- 
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Accept-Ranges 

Accept-Ranges 首部 与 其 他 Accept 首部 不 同 它 是 服务 器 使 用 的 一 种 响应 首 
部 ， 用 来 告知 客户 端 它们 是 否 接受 请 求 资源 的 某 个 范围 。 如 果 这 个 首部 有 赋值 的 话 ， 
这 个 值 就 说 明了 服务 器 允许 对 指定 资源 的 哪个 范围 类 型 进行 访问 。 


客户 端 可 以 在 没有 收 到 这 个 首部 的 情况 下 ， 对 某 资源 发 起 范围 请 求 。 如 果 服 务 器 不 
支持 对 那个 资源 的 范围 请 求 ， 可 以 以 适当 的 状态 码 进行 响应 “， 将 Accept-Ranges 
的 值 设置 为 none。 服 务 器 可 以 为 普通 请 求 发 送 none 值 ， 这 样 客户 端 以 后 就 不 会 发 
起 范围 请 求 了 。 















































第 17 章 完 整 介绍 了 Accept-Ranges 首部 。 
类 型 响应 首部 
基本 语法 Accept-Ranges: 1# range-unit | none 
举例 Accept-Ranges: none 
Accept-Ranges: bytes 





Age 

Age 首部 可 以 告诉 接收 端 响应 已 产生 了 多 长 时 间 。 对 于 原始 服务 器 是 在 多 和 久之 前 产 
生 的 响应 或 是 在 多 和 久之 前 向 原始 服务 器 再 次 验证 响应 而 言 ， 这 是 发 送 端 所 做 的 最 好 
的 猜测 。 首 部 的 值 是 发 送 端 所 做 的 猜测 ， 以 秒 为 单位 递增 。 更 多 有 关 age 首部 的 内 
容 参见 第 7 章 。 


类 型 响应 首部 

注释 HTTP/1.1 缓存 必须 在 发 送 的 每 条 响应 中 都 包含 一 个 Age 首部 。 
基本 语法 Age: delta-seconds 

举例 Age: 60 

Allow 


Allow 首部 用 于 通知 客户 端 可 以 对 特定 资源 使 用 哪些 HTTP 方法 。 

类 型 响应 首部 

注释 发 送 405 Method Not Allowed 响应 的 HTTP/1.1 服务 器 必须 包含 Allow 
首部 。 š 

基本 语法 Allow: #Method 





注 2: 比如 ， 状 态 码 416 (参见 3.4.4 75), 
注 3: 更 多 有 关 状 态 码 405 的 内 容 参见 3.4 节 。 
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举例 Allow: GET, HEAD 





Authorization 


Authorization 首部 是 由 客户 端 发 送 的 ， 用 来 向 服务 器 回应 自己 的 身体 验证 信息 。 
客户 端 收 到 来 自 服 务 器 的 401 Authentication Required 响应 后 ， 要 在 其 请 求 中 包含 这 
个 首部 。 这 个 首部 的 值 取决 于 所 使 用 的 认证 方案 。 有 关 Authorization 首部 的 详 
细 讨 论 参 见 第 14 章 。 

类 型 请 求 首部 

基本 语法 Authorization: authentication-scheme #authentication- 


param 


举例 Authorization: Basic YnJpYW4tdG90dHk6T3ch 





Cache-Control 


Cache-Control 首部 用 于 传输 对 象 的 缓存 信息 。 这 个 首部 是 HTTP/1.1 引入 的 比较 
复杂 的 首部 之 一 。 它 的 值 是 一 个 缓存 指令 ， 给 出 了 与 某 个 对 象 可 缓存 性 有 关 的 缓存 
特有 指令 。 


第 7 章 简要 介绍 了 缓存 ， 还 说 明了 与 这 个 首部 有 关 的 特定 细节 
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类 型 通用 首部 
举例 Cache-Control: no-cache 
Client-ip 


Client-ip 首部 是 一 些 比较 老 的 客户 端 和 代理 使 用 的 扩展 首部 ， 用 来 传输 运行 客户 
端 程序 的 计算 机 IP 地 址 。 





类 型 扩展 请 求 首 部 

注释 实现 者 应 该 了 解 这 个 首部 的 值 所 提供 的 信息 是 不 安全 的 。 
基本 语法 Client-ip: ip-address 

举例 Client-ip: 209.1.33.49 

Connection 


Connection 首部 是 个 多 少 有 点 儿 过 载 了 的 首部 ， 它 可 能 会 把 你 搞 坚 。 这 个 首部 用 
于 扩展 了 keep-alive 连接 的 HTTP/1.0 客户 端 ， oae XE HT BB. * 





注 4: 更 多 有 关 keep-alive 和 持久 连接 的 内 容 参 见 第 4 3E, 
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HTTP/1.1 中 ， 能 识别 出 大 部 分 较 老 的 语义 ， 但 这 个 首部 被 赋予 了 新 的 功能 


在 HITP/1.1 中 ，connection 首部 的 值 是 一 个 标记 列表 ， 这 些 标记 对 应 各 种 首部 名 
称 。 应 用 程序 收 到 带 有 connection 首部 的 HTTP/1.1 报 文 后 ， 应 该 对 列表 进行 解 
析 ， 并 删除 报 文中 所 有 在 connection 首部 列表 中 出 现 过 的 首部 。 它 主要 用 于 有 代 
理 网 络 环境 ， 这 样 服务 器 或 其 他 代理 就 可 以 指定 不 应 传递 的 逐 跳 首 部 了 。 


close 是 一 个 典型 的 标记 值 。 这 个 标记 意味 着 响应 结束 之 后 ， 连 接 会 被 关闭 。 不 
支持 持久 连接 的 HTTP/1.1 应 用 程序 要 在 所 有 请 求 和 响应 中 插入 带 有 close 标记 的 


connection 首部 。 























类 型 通用 首部 

注释 虽然 RFC 2616 没有 专门 声明 将 keep-alive fang 记 使 用 ， 有些 
(包括 那些 将 HTTP/1.1 作为 版 本 号 发 送 的 ) 浏览 器 还 是 会 在 发 起 请 求 时 
使 用 它 

基本 语法 Connection: 1# (connection-token) 

举例 Connection: close 





Content-Basge 


服务 器 可 以 通过 content-Base 首部 为 响应 主体 部 分 中 要 解析 的 URL 指定 一 个 基 
fill URL, ^content-Base 首部 的 值 是 一 个 绝对 URL， 可 以 用 来 解析 在 实体 内 找到 
的 相对 URL, 


类 型 实体 首部 
注释 RFC 2616 中 没有 定义 这 个 首部 。 它 是 早期 在 RFC 2068 中 定义 的 ，RFC 


2068 是 一 个 较 早 的 HTTP/1.1 草案 ， 已 经 从 官方 规范 中 删除 了 。 
基本 语法 Content-Base: absoluteURL 





举例 Content-Base: http://www.joes-hardware.com/ 





Content-Encoding 
Content-Encoding 首部 用 于 说 明 是 否 对 某 对 象 进行 过 编码 。 通 过 对 内 容 进行 编 
码 ， 服 务 器 可 以 在 发 送 响应 之 前 将 其 进行 压缩 。content -Encoding 首部 的 值 可 以 
告诉 客户 端 ， 服 务 器 对 对 象 执 行 过 哪 种 或 哪些 类 型 的 编码 。 有 了 这 个 信息 ， 客 户 端 
就 可 以 对 报 文 进行 解码 了 。 





注 5: 更 多 有 关 基 础 URL 的 信息 参见 2.3 市 。 
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有 时 服务 器 会 对 某 个 实体 进行 多 种 编码 ， 在 这 种 情况 下 ， 必 须 按照 执行 的 顺序 将 编 
码 列 出 来 。 

类 型 实体 首部 

基本 语法 content-Encoding: 1# content-coding 

举例 Content-Encoding: gzip 


Content-Encoding: compress, gzip 





Content-Language 
Content-Language 首部 用 来 告诉 想 要 理解 对 象 的 客户 端 ， 应 该 理解 哪 种 自然 语 
。 比 如 说 ,一 篇 用 法 语 编写 的 文档 就 应 该 有 一 个 表示 法 语 的 Content-Language 
值 。 如 果 在 响应 中 没有 提供 这 个 值 ， 对 和 象 就 是 提供 给 所 有 用 户 的 。 首 部 值 中 有 多 种 
语言 就 说 明 对 象 适 用 于 使 用 所 列 各 种 语言 的 用 户 。 


这 里 需要 说 明 的 是 ， 这 个 首部 的 值 可 能 只 表示 了 此 对 象 目标 用 户 的 自然 语言 ， 而 不 
是 对 象 中 包含 的 所 有 或 者 任意 一 种 语言 。 而 且 ， 此 首部 并 不 局 限于 文本 或 书面 数据 
对 象 ， 图 像 、 视 频 和 其 他 媒体 类 型 也 可 以 用 其 目标 用 户 的 自然 语言 来 标识 。 

类 型 实体 首部 

基本 语法 Content-Language: 1# language-tag 





Ill 





举例 Content-Language: en 


Content-Language: en, fr 
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Content-Length 

Content-Length 首部 说 明 实 体 主体 部 分 的 长 度 或 尺寸 。 如 果 对 HEAD HTTP 请 求 
的 响应 报 文中 有 这 个 首部 ， 此 首部 的 值 就 表示 如 果 发 送 的 的 话 ， 实 体 主 体 部 分 的 长 
度 〈 实 际 上 并 不 发 送 主 体 )。 








类 型 实体 首部 
基本 语法 Content-Length: 1*DIGIT 
举例 Content-Length: 2417 





Content-Location 

Content-Location 首部 包含 在 一 个 HTTP 报 文中 ， 给 出 了 与 报 文 的 实体 部 分 相对 
应 的 URL。 对 可 能 有 多 个 URL 的 对 象 来 说 ， 响 应 报 文中 可 以 包含 一 个 Content- 
Location 首部 ， 说 明 用 来 产生 响应 的 对 象 的 URL, Content-Location 可 以 与 所 
请 求 的 URL 不 同 。 服 务 器 通常 会 用 它 将 客户 端 导 癌 或 重 定向 到 一 个 新 URL 上 去 。 
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如 果 URL 是 相对 的 ， 就 应 该 相对 于 content-Base 首部 加 以 解释 。 如 果 没 有 提供 
Content-Base 首部 ， 就 应 该 使 用 请 求 中 的 URL, 

类 型 。” ”实体 首部 

基本 语法 Content-Location: (absoluteURL | relativeURL) 

举例 Content-Location: http://www.joes-hardware.com/index.html 





Content-MD5 

Content-MD5 首部 是 服务 器 用 来 对 报 文 主体 进行 报 文 完 整 性 检查 的 。 只 有 原始 服务 
器 或 发 起 请 求 的 客户 端 可 以 在 报 文 中 插入 content -MD5 首部 。 首 部 值 是 (可 能 需 
要 编码 的 ) 报 文 主体 的 MD5 摘要 。 ° 


通过 这 个 首部 的 值 可 以 端 到 端 地 检查 数据 ， 在 检查 传输 过 程 中 是 否 对 数据 进行 了 无 
意 的 修改 时 非常 有 用 。 不 应 该 将 其 用 于 安全 目的 。 





RFC 1864 更 详细 地 定义 了 这 个 首部 。 


类 型 实体 首部 

注释 根据 RFC 1864 的 定义 ，MD5 摘要 值 是 一 个 Base-64 (参见 附录 E) 或 
128 位 的 MD5 摘要 。 

基本 语法 content-MD5: md5-digest 

举例 Content-MD5: Q2hlY2sgSW51ZwDIAXR5IQ== 





Content-Range 
请 求 传输 某 范 围 内 的 文档 时 ， 产 生 的 结果 由 content-Range 首部 给 出 。 它 提供 了 
请 求实 体 所 在 的 原始 实体 内 的 位 置 (范围 )， 还 给 出 了 整个 实体 的 长 度 。 


如 果 值 为 “*”， 而 不 是 整个 实体 的 长 度 ， 就 意味 着 发 送 响 应 时 ， 长 度 未 知 。 





更 多 有 关 Content-Range 的 内 容 请 参见 第 15 章 。 


类 型 实体 首部 

注释 以 206 Partial Content 响应 码 进行 响应 的 服务 器 ， 不 能 包含 将 “*” 作 为 
长 度 使 用 的 content-Range 首部 。 

举例 Content-Range: bytes 500-999 / 5400 








注 6: MD5 摘要 是 在 RFC 1864 中 定义 的 。 
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Content-Type 
Content-Type 首部 说 明了 报 文中 对 象 的 媒体 类 型 。 





基本 语法 Content-Type: media-type 
举例 Content-Type: text/html; charset=iso-latin-1 
Cookie 


Cookie 首部 是 用 于 客户 端 识 别 和 跟踪 的 扩展 首部 。 第 11 章 详细 讨论 了 cookie Ë 
部 及 其 用 法 (还 请 参见 set -cookie)。 





类 型 扩展 请 求 首部 
举例 Cookie: ink-IUOK164y59BC708378908CFF890E5573998A115 
Cookie2 





Cookie2 首部 是 用 于 客户 端 识别 和 跟踪 的 扩展 首部 。cookie2 用 于 识别 请 求 发 起 者 
能 够 理解 哪 种 类 型 的 Cookie, fÉ RFC 2965 中 对 其 进行 了 更 加 详细 的 定义 。 





第 11 章 详细 地 讨论 了 cookie2 首部 及 其 用 法 。 
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类 型 扩展 请 求 首部 
举例 Cookie2: $version-"1" 
Date 


Date 首部 给 出 了 报 文 创建 的 日 期 和 时 间 。 服 务 器 响应 中 要 包含 这 个 首部 ， 因 为 缓存 
在 评估 响应 的 新 鲜 度 时 ， 要 用 到 这 个 服务 器 认定 的 报 文 创建 时 间 和 日 期 。 对 客户 端 
来 说 ， 这 个 首部 是 可 选 的 ， 但 包含 这 个 首部 会 更 好 。 





类 型 通用 首部 
基本 语法 Date: HTTP-date 
举例 Date: Tue, 3 Oct 1997 02:15:31 GMT 


HTTP 有 几 种 特定 的 日 期 格式 。 这 种 格式 是 在 RFC 822 中 定义 的 ， 这 是 
HTTP/1.1 报 文 的 优选 格式 。 但 在 早期 的 HTTP 规范 中 ， 没 有 明确 说 明 
日 期 的 格式 ， 因 此 服务 器 和 客户 端的 实现 者 使 用 了 一 些 其 他 格式 ， 为 了 
解决 这 些 遗 留 问题 仍然 需要 支持 这 些 格式 。 你 可 能 会 碰 到 RFC 850 中 
说 明 的 那些 日 期 格式 , asctime O 系统 调用 产生 的 日 期 格式 。 下 面 是 用 
这 些 格式 所 表示 的 上 述 日 期 : 
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Date: Tuesday, 03-Oct-97 02:15:31 GMT RFC 850 format 
Date: Tue Oct 3 02:15:31 1997 asctime( ) format 


大 家 都 不 喜欢 asctime () 格式 ， 因 为 它 表 示 的 是 本 地 时 间 ， 而 且 没 有 说 明 时 区 
(比如 ，GMT)。 总 的 来 说 ， 日 期 首部 应 该 是 GMT 时 间 ; 但 健壮 的 应 用 程序 在 处 理 
日 期 时 ， 应 该 能 够 处 理 那些 设 有 指定 时 区 ， 或 者 包含 了 非 GMT 时 间 的 Date 值 。 








ETag 
ETag 首部 为 报 文中 包含 的 实体 提供 了 实体 标记 。 实 体 标 记 实 际 上 就 是 一 种 标识 资源 
的 方式 。 
第 15 章 曾 探 讨 过 实体 标记 及 其 与 资源 之 间 的 关系 。 
类 型 实体 首部 
基本 语法 ETag: entity-tag 
举例 ETag: "11e92a-457b-31345aan 
ETag: W/"11e92a-457b-3134b5aa" 





Expect 


客户 端 通过 Expect 首部 告知 服务 器 它们 需求 某 种 行为 。 现 在 此 首部 与 响应 码 100 
Continue 紧密 相关 (参见 3.4.1 35), 





如 果 服 务 器 无 法 理解 Expect 首部 的 值 ， 就 应 该 以 状态 码 417 Expectation Failed 进 
行 啊 应 。 


类 型 请 求 首部 





基本 语法 Expect: 14 ("100-continue" | expectation-extension) 
举例 Expect: 100-continue 
Expires 


Expires 首部 给 出 了 响应 失效 的 日 期 和 时 间 。 这 样 ， 像 浏览 器 这 样 的 客户 端 就 可 以 
缓存 一 份 副 本 ， 在 这 个 时 间 到 期 之 前 ， 不 用 去 询问 服务 器 它 是 否 有 效 了 。 

第 7 章 曾 讨论 过 Expires 首部 的 用 法 一 一 尤其 是 ， 它 是 如 何 与 缓存 关联 ， 怎 样 与 原 
始 服务 器 进行 响应 再 验证 的 。 


类 型 实体 首部 
基本 语法 Expires: HTTP-date 
举例 Expires: Thu, 03 Oct 1997 17:15:00 GMT 
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From 
From 首部 说 明 请 求 来 自 何方 。 其 格式 就 是 (RFC 1123 规定 的 ) 客户 端 用 户 的 有 效 
电子 邮件 地 址 。 


使 用 /填充 这 个 首部 存在 潜在 的 隐私 问题 。 客 户 端 实 现 者 在 请 求 报 文中 包含 这 个 首 
部 之 前 ， 应 该 通知 用 户 ， 请 他 们 作出 选择 。 有 些 人 会 去 收集 不 请 自 来 的 邮件 报 文中 
携带 的 电子 邮件 地 址 ， 这 可 能 造成 潜在 的 滥用 。 因 此 ， 未 做 声明 就 将 此 首部 广播 出 
去 的 实现 者 一 定 会 非常 愧 悔 ， 他 们 不 得 不 向 愤怒 的 用 户 说 抱歉 。 

















类 型 请 求 首部 

基本 语法 From: mailbox 

举例 From: slurpGinktomi.com 
Host 


客户 端 通过 Host 首部 为 服务 器 提供 客户 端 想 要 访问 的 那 台 机 器 的 因特网 主机 名 和 
端口 号 。 主 机 名 和 端口 号 来 自 客户 端 所 请 求 的 URL, 

只 要 服务 器 能 够 在 同一 台 机 器 ( 即 ， 在 同一 个 IP 地 址 ) 上 提供 多 个 不 同 的 主机 名 ， 
服务 器 就 可 以 通过 Host 首部 ， 根 据 主 机 名 来 区 分 不 同 的 相对 URL。 












































类 型 请 求 首 部 

注释 HTTP/1.1 客户 端 必须 在 所 有 请 求 中 包含 Host 首部 。 所 有 的 HTTP/1.1 
服务 器 都 必须 以 400 Bad Request 状态 码 去 响应 没有 提供 Host 首部 的 
客户 端 。 

基本 语法 Host: host [":" port] 

举例 Host: www.hotbot .com:80 


If-Modified-Since 

If-Modified-Since 请 求 首部 用 来 发 起 条 件 请 求 。 客 户 端 可 以 用 GET 方法 去 请 求 
服务 器 上 的 资源 ， 而 响应 则 取决 于 客户 端 上 次 请 求 此 资源 之 后 ， 该 资源 是 否 被 修改 过 。 
如 果 对 象 未 被 修改 过 ， 服 务 器 会 回 送 一 条 304 Not Modified 响应 ， 而 不 会 回 送 此 资 


源 。 如 果 对 象 被 修改 过 ， 服 务 器 就 会 像 对 待 非 条 件 GET 请 求 一 样 进 行 响应 。 第 7 w 
详细 地 讨论 了 条 件 请 求 。 


类 型 请 求 首部 
基本 语法 If-Modified-Since: HTTP-date 
举例 If-Modified-Since: Thu, 03 Oct 1997 17:15:00 GMT 
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If-Match 

LE If-Modified-Since 首部 类 似 ，If-Match 首 部 也 可 以 用 于 发 起 条 件 请 求 。 
If-Match 请 求 使 用 的 是 实体 标记 ， 而 不 是 日 期 。 服 务 器 将 对 比 r£-Match 首部 的 
实体 标记 与 资源 当前 的 实体 标记 ， 如 果 标 记 匹 配 ， 就 将 对 象 返回 。 
服务 器 应 该 用 If-Matchn 值 “*” 与 某 资源 拥有 的 所 有 实体 标记 进行 匹配 。 除 非 服 
务 器 上 没有 这 个 资源 了 ， 否 则 “* ”总 会 与 实体 标记 相 匹配 。 

类 型 请 求 首部 

基本 语法 If-Match: ("*" | 14 entity-tag) 

举例 If-Match: "11e92a-457b-31345aa" 











If-None-Match 

与 所 有 If 首部 一 样 ，If-None-Match 首部 可 以 用 于 发 起 条 件 请 求 。 客 户 端 为 服务 
器 提供 一 个 实体 标记 列表 ， 服 务 器 将 这 些 标 记 与 它 拥有 的 资源 实体 标记 进行 比较 ， 
只 在 都 不 匹配 的 时 候 才 将 资源 返回 。 

这 样 缓存 就 可 以 只 在 资源 已 被 修改 的 情况 下 才 更 新 。 通 过 If-None-Match 首部 ， 
缓存 可 以 用 一 条 请 求 使 它 拥 有 的 实体 失效 ， 同 时 在 响应 中 接收 新 的 实体 。 第 7 章 曾 
讨论 过 条 件 请 求 。 





类 型 请 求 首部 

基本 语法 If-None-Match: ("*" | 1# entity-tag) 
举例 If-None-Match: "11e92a-457b-31345aa" 
If-Range 


与 所 有 IE 首部 一 样 ，IE-Range 首部 可 以 用 于 发 起 条 件 请 求 。 应 用 程序 拥有 某 范 围 
内 资源 的 副本 ， 它 要 对 范围 进行 再 验证 ， 如 果 范 围 无 效 的 话 ， 要 获取 新 的 资源 ， 在 
这 种 情况 下 会 使 用 这 个 首部 。 第 7 章 详细 讨论 了 条 件 请 求 。 











类 型 请 求 首部 
基本 语法 If-Range: (HTTP-date | entity-tag) 
举例 If-Range: Tue, 3 Oct 1997 02:15:31 GMT 


If-Range: "11e92a-457b-3134b5aa" 





If-Unmodified-Since 


If-Unmodified-Since fll If-Modified-Since 首部 是 一 对 “双胞胎 >”。 在 请 求 





544 | 附录 C 


中 包含 此 首部 就 可 以 发 起 条 件 请 求 。 服 务 器 应 该 去 查看 首部 的 日 期 值 ， 只 有 在 从 该 
首部 提供 的 日 期 之 后 ， 对 象 都 未 被 修改 过 ， 才 会 返回 对 象 。 第 7 章 详细 介绍 了 条 件 


请 求 。 

类 型 请 求 首部 

基本 语法 If-Unmodified-Since: HTTP-date 

举例 If-Unmodified-Since: Thu, 03 Oct 1997 17:15:00 GMT 





Last-Modified 

Last-Modified 首部 试图 提供 这 个 实体 最 后 一 次 被 修改 的 相关 信息 。 这 个 值 可 以 
说 明 很 多 事情 。 比 如 ， 资 源 通 常 都 是 一 台 服 务 器 上 的 文件 ， 因 此 Last-Modified 
直 可 能 就 是 服务 器 的 文件 系统 所 提供 的 最 后 修改 时 间 。 另 一 方面 ， 对 于 那些 动态 创建 
的 资源 (比如 ， 由 脚本 创建 的 资源 )，Last-Modified 值 可 能 就 是 创建 响应 的 时 间 。 


服务 器 要 注意 ，Last-Modified 时 间 不 应 该 是 未 来 的 时 间 。 如 果 它 比 Date 首部 中 
要 发 送 的 值 还 人 运 ，HTTP/1.1 服务 器 就 会 将 Last-Modified HIE E. 

















类 型 实体 首部 

基本 语法 Last-Modified: HTTP-date 

举例 Last-Modified: Thu, 03 Oct 1997 17:15:00 GMT 
Location 


服务 器 可 以 通过 Location 首部 将 客户 端 导向 某 个 资源 的 地 址 ， 这 个 资源 可 能 在 客 
户 端 最 后 一 次 请 求 之 后 被 移动 过 ， 也 可 能 是 在 对 请 求 的 响应 中 创建 的 。 


类 型 响应 首部 
基本 语法 Location: absoluteURL 
举例 Location: http://www.hotbot.com 





Max-Forwards 
这 个 首部 只 能 和 TRACE 方法 一 同 使 用 ， 以 指定 请 求 所 经 过 的 代理 或 其 他 中 间 节 点 
的 最 大 数目 。 它 的 值 是 个 整数 。 所 有 收 到 带 此 首部 的 TRACE 请 求 的 应 用 程序 ， 在 
将 请 求 转发 出 去 之 前 都 要 将 这 个 值 减 1。 

如 果 应 用 程序 收 到 请 求 时 ， 这 个 首部 的 值 为 零 ， 就 要 向 请 求 回 应 一 条 200 OK 响应 ， 
并 在 实体 的 主体 部 分 包含 原始 请 求 。 如 果 TRACE 请 求 中 没有 Max-Forwards Ë 
部 ， 就 假定 没有 转发 最 大 次 数 的 限 币 

















2; 
° 
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其 他 HTTP 方法 都 应 该 忽略 这 个 首部 。 更 多 有 关 TRACE 方法 的 信息 参见 3.3 节 。 


类 型 请 求 首 部 
基本 语法 Max-Forwards: 1*DIGIT 
举例 Max-Forwards: 5 





MIME-Version 


MIME 是 HTTP 的 近亲 。 尽 管 两 者 存在 根本 区 别 ， 但 有 些 HTTP 服务 器 确实 构造 了 
一 些 在 MIME 规范 下 同样 有 效 的 报 文 。 在 这 种 情况 下 ， 服 务 器 可 以 提供 MIME 版 本 
的 首部 。 

尽管 HTTP/1.0 规范 中 提 到 过 这 个 首部 ， 但 它 从 未 写 入 官方 规范 。 很 多 比较 老 的 服 
务 器 会 发 送 带 有 这 个 首部 的 报 文 ， 但 这 些 报 文 通常 都 不 是 有 效 的 MIME 报 文 ， 这 样 
会 让 人 觉得 这 个 首部 邻 人 迷惑 且 不 可 信 。 





























类 型 扩展 的 通用 首部 

基本 语法 MIME-Version: DIGIT "." DIGIT 
举例 MIME-Version: 1.0 

Pragma 


Pragma 首部 用 于 随 报 文 传送 一 些 指令 。 这 些 指令 几乎 可 以 包含 任何 内 容 ， 但 通常 
会 用 这 些 指令 来 控制 缓存 的 行为 。Pragma 首部 的 目标 可 以 是 接收 这 条 报 文 的 所 有 
应 用 程序 ， 因 此 代理 和 网 关 一 定 不 能 将 其 删除 。 








最 常见 的 Pragma 形式 一 一 Pragma: no-cache 是 一 个 请 求 首部 ， 通过 它 可 以 迫使 
缓存 在 有 新 鲜 副 本 可 用 的 情况 下 ， 向 原始 服务 器 请 求 文档 或 对 其 进行 再 验证 。 用 户 
点 击 重新 加 载 / 刷新 按钮 时 ， 浏 览 器 就 会 发 出 这 个 首部 。 很 多 服务 器 会 将 Pragma: 
no-cache 作为 响应 首部 发 送 (和 cache-Control:no-cache 等 价 ) 。 尽 管 这 个 首 
部 得 到 了 广泛 的 使 用 ,但 从 技术 上 来 说 ， 并 没有 定义 过 其 行为 ， 不 是 所 有 的 应 用 程 
序 都 支持 Pragma 响应 首部 。 


第 7 章 探讨 了 Pragma 首部 以 及 HTTP/1.0 应 用 程序 如 何 通过 它 来 控制 缓存 。 


类 型 请 求 首部 
基本 语法 Pragma: 1# pragma-directive' 








举例 Pragma: no-cache 








注 7: 规范 中 定义 的 唯一 的 一 个 Pragma 指令 就 是 no-cache， 但 我 们 可 能 会 磁 到 其 他 作为 规范 扩展 而 定 
义 的 Pragma 首部 。 
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Proxy-Authenticate 


Proxy-Authenticate 首部 的 功能 类 似 于 www-Authenticate 首部 。 代 理会 这 个 
首部 来 质询 发 送 请 求 的 应 用 程序 ， 要 求 其 对 自身 进行 认证 。 第 14 章 详细 讨论 了 这 个 


质询 /响应 过 程 和 HTTP 的 其 他 安全 机 制 。 








如 果 一 台 HTTP/1.1 代理 服务 器 发 送 了 一 条 407 Proxy Authentication Required 响应 ， 
就 必须 包含 Proxy-Authenticate 首部 。 


代理 和 网 关 在 解释 所 有 的 Proxy 首部 时 要 特别 小 心 。 通 第 它们 都 是 逐 跳 首 部 ， 只 
适用 于 当前 的 连接 。 比 如 ， Proxy-Authenticate 首部 会 要 求 对 当前 的 连接 进行 
认证 。 

类 型 响应 首部 

基本 语法 Proxy-Authenticate: challenge 

举例 Proxy-Authenticate: Basic realm="Super Secret Corporate 


FinancialDocuments" 





Proxy-Authorization 

Proxy-Authorization 首部 的 功能 与 Proxy-Authorization 首部 类 似 。 客 户 端 
应 用 程序 可 以 用 它 来 响应 Proxy-Authenticate 质询 。 更 多 有 关 质 询 / 响 应 安全 机 
制 工作 原理 的 内 容 参见 第 14 章 。 

类 型 请 求 首部 


基本 语法 Proxy-Authorization: credentials 








举例 Proxy-Authorization: Basic YnJpYW4tdG90dHk6T3ch 


Proxy-Connection 


Proxy-Connection 首部 的 语义 与 HTTP/1.0 Connection 首部 类 似 。 在 客户 端 和 
代理 之 间 可 以 用 它 来 指定 与 连接 (主要 是 keep-alive 连接 ) 有 关 的 选项 。" 它 并 不 是 
一 个 标准 的 首部 ， 标 准 委员 会 把 它 当 作 一 个 临时 首部 。 但 它 得 到 了 浏览 器 和 代理 的 
广泛 使 用 。 

浏览 器 实现 者 创建 了 Proxy-Connection 首部 ， 来 解决 客户 端 发 送 的 HTTP/1.0 


Connection 首部 被 哑 代 理 育 转发 的 问题 。 收 到 被 育 转 发 的 Connection 首部 的 服 
务 器 会 将 客户 端 连接 的 功能 与 代理 连接 的 功能 混 请 起 来 。 





注 8: 更 多 有 关 keep-alive 和 持久 连接 的 内 容 参见 第 14 


n3 
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客户 端 知道 要 经 过 代理 传输 时 ， 就 会 发 送 proxy-Connection 首部， 而 不 是 
Connection 首部 。 服 务 器 如 果 无 法 识别 proxy-connection 首部 ， 就 会 将 其 名 
略 ， 这 样 ， 对 首部 进行 盲 转发 的 哑 代 理 就 不 会 带 来 任何 问题 了 。 


如 果 在 从 客户 端 到 服务 器 的 路 径 上 有 多 个 代理 ， 这 种 解决 方法 就 会 有 问题 。 如 果 第 
一 个 代理 将 首部 盲 转发 给 第 二 个 能 够 理解 它 的 代理 ， 那 么 第 二 个 代理 就 会 像 服务 器 
看 到 connection 首部 一 样 ， 无 法 理解 。 


这 是 HTTP 工作 组 的 解决 方案 存在 的 问题 一 一 他 们 将 其 作为 一 种 黑客 工具 ， 可 以 解 
决 单个 代理 的 问题 ， 但 无 法 解决 更 大 的 问题 。 尽 管 如 此 ， 这 种 方式 确实 能 够 处 理 一 
些 比 较 常 见 的 情况 ， 而 且 由 于 网 景 的 Navigator 和 微软 的 Internet Explorer 的 较 老 
版 本 都 实现 了 这 个 首部 ， 因 而 代理 的 实现 者 也 需要 对 其 进行 处 理 ， 更 多 信息 参见 第 
4 章 。 






































类 型 通用 首部 

基本 语法 Proxy-Connection: 1# (connection-token) 
举例 Proxy-Connection: close 

Public 


服务 器 可 以 用 Public 首部 告知 客户 端 它 支持 哪些 方法 。 今 后 客户 端 发 起 的 请 求 就 
可 以 使 用 这 些 方法 了 。 代 理 收 到 服务 器 发 出 的 带 有 Public 首部 的 响应 时 ， 要 特别 
小 心 。 这 个 首部 说 明 的 是 服务 器 支持 的 方法 ， 而 不 是 代理 的 ， 因 此 代理 在 将 响应 发 
送 给 客户 端 之 前 ， 要 对 首部 的 方法 列表 加 以 编辑 ， 或 者 将 此 首部 删除 。 


类 型 响应 首部 

注释 RFC 2616 中 没有 定义 这 个 首部 。 它 是 之 前 在 HTTP/1.1 规范 的 早期 草案 
RFC 2068 中 定义 的 ， 而 官方 规范 已 经 将 其 删除 了 。 

基本 语法 Public: 14 HTTP-method 

举例 Public: OPTIONS, GET, HEAD, TRACE, POST 

















Range 

在 请 求 某 实体 的 部 分 内 容 中 会 用 到 Range 首部 。 它 的 值 说 明了 报 文 所 包含 实体 的 
请 求 某 范围 内 的 文档 可 以 更 有 效 地 对 大 型 对 象 发 出 请 求 (分 段 对 其 发 出 请 求 )， 或 者 
更 有 效 地 从 传输 错误 中 恢复 (允许 客户 端 请 求 没 有 完成 的 那 部 分 资源 )。 第 15 章 详 
细 说 明了 范围 请 求 和 能 实现 范围 请 求 的 首部 。 
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类 型 实体 首部 
举例 Range: bytes=500-1500 





Referer 

在 客户 端 请 求 中 插入 Referer 首部 ， 可 以 使 服务 器 知道 客户 端 是 从 哪里 获得 其 请 求 
的 URL。 这 是 一 种 对 服务 器 有 益 的 自愿 行为 ， 这 样 服务 器 就 可 以 更 好 地 记录 请 求 ， 
或 执行 其 他 任务 了 。Referer 的 拼写 错误 要 回溯 到 HTTP 的 早期 ， 令 世界 各 地 以 英语 
为 母语 的 文字 编辑 们 万 分 诅 霄 。 


浏览 器 所 做 的 工作 相当 简单 。 如 果 在 主页 A Eate, ZEACEDB. DUULas 
就 会 在 请 求 中 插入 一 个 带 有 值 A 的 Referer 首部 。 只 有 在 你 点 击 链接 的 时 候 ， 浏 
览 器 才 会 插入 Referer 首部 ， 自己 输入 的 URL 中 不 会 包含 Referer 首部 。 


R oil 所 以 这 个 首部 会 有 隐私 问题 。 尽 管 有 些 只 是 毫 无 根据 的 猪 

， 但 Web 服务 器 及 其 管理 者 确实 可 以 通过 这 个 首部 看 到 你 来 自 何 方 ， 这 样 他 们 就 

— 的 浏览 行为 了 。 因 此 ，HTTP/1.1 规范 建议 应 用 程序 编写 者 让 用 户 来 
选择 是 否 传输 这 个 首部 。 


类 型 请 求 首部 
基本 语法 Referer: (absoluteURL | relativeURL) 
举例 Referer: http://www.inktomi.com/index.html 

















Retry-After 


服务 器 可 以 用 Retry-After 首部 告知 客户 端 什么 时 候 重 新 发 送 某 资源 的 请 求 。 这 
个 首部 可 以 与 503 Service Unavailable (服务 不 可 用 ) 状态 码 配 合 使 用 ， 给 出 客户 端 
可 以 重 试 其 请 求 的 具体 日 期 和 时 间 (或 者 秒 数 )。 


服务 器 还 可 以 在 将 客户 端 重 定 向 到 资源 时 ， 通 过 这 人 1 
资源 发 送 请 求 之 前 需要 等 待 的 时 间 。 ”对 那些 正在 创建 动态 资源 的 服务 器 来 说 ， 
首部 是 非常 有 用 的 ， 服 务 器 可 以 通过 它 将 客户 端 重 定 向 到 新 创建 的 资源 ， NS 
资源 创建 所 需 的 时 间 。 














类 型 响应 首部 
基本 语法 Retry-After: (HTTP-date | delta-seconds) 
举例 Retry-After: Tue, 3 Oct 1997 02:15:31 GMT 


Retry-After: 120 





注 9: 更 多 有 关 服 务 器 重 定向 响应 的 信息 参见 表 3-8, 
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Server 

Server É UD User-Agent 首部 类 似 。 它 为 服务 器 提供 了 一 种 向 客户 端 标识 自己 
的 方式 。 它 的 值 就 是 服务 器 名 字 和 一 个 可 选 的 服务 器 注释 。 

Server 首部 是 用 来 识别 服务 器 软件 的 ， 而 且 包 含 了 与 软件 有 关 的 附加 注释 ， 所 以 
其 格式 比较 随意 。 如 果 编 写 的 软件 与 服务 器 标识 自己 的 方式 有 关 ， 就 应 该 测试 服务 
器 软件 ， 看 看 它 会 发 回 什么 内 容 ， 因 为 这 些 标记 会 随 软件 及 其 发 布 版 本 的 不 同 而 有 
所 不 同 。 


像 User-Agent 首部 一 样 ， 如 果 较 老 的 代理 或 网 关 在 Server 首部 中 插入 了 相当 于 
Via 首 部 的 内 容 ， 千 万 不 要 感到 吃惊 。 


类 型 响应 首部 


基本 语法 Server: 1* (product | comment) 





举例 Server: Microsoft-Internet-Information-Server/1.0 
Server: Websitepro/1.1f (s/n wpo-07d0) 
Server: apache/1.2b6 via proxy gateway CERN-HTTPD/3.0 
libwww/2.13 





Set-Cookie 

Set-Cookie 首部 是 Cookie 首部 的 搭档 。 第 11 章 介 绍 了 这 个 首部 的 用 法 。 
类 型 扩展 响应 首部 

基本 语法 Set-Cookie: command 


举例 Set-Cookie: lastorder=00183; path=/orders 


Set-Cookie: private id=519; secure 





Set-Cookie2 
Set-Cookie2 首部 是 对 Set-Cookie 首部 的 扩展 。 第 11 章 详细 了 探讨 了 这 个 首部 
的 用 法 。 


类 型 扩展 响应 首部 

基本 语法 Set-Cookie2: command 

举例 Set-Cookie2: ID="29046"; Domain=".joes-hardware.com" 
J 


Set-Cookie2: color=blue 





TE 


TE 首部 的 名 字 起 得 不 太 好 (本 应 该 将 其 命名 为 Accept-Transfer-Encoding) , 
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它 的 功能 与 Accept-Encoding 首部 类 似 ， 但 它 是 用 于 传输 编码 的 。TE 首部 还 可 
以 用 来 说 明 客户 端 能 否 处 理 位 于 分 块 编 码 的 响应 拖 挂 中 的 首部 。 更 多 有 关 TE 首部 、 
分 块 编码 和 拖 挂 的 内 容 参见 第 15 章 。 


类 型 请 求 首 部 

注释 如 果 这 个 值 为 空 ， 就 只 接受 分 块 传输 编码 。 特 定 标 记 “trailers” 说 明 分 
块 啊 应 中 可 以 接受 Trailer 首部 。 

基本 语法 TE: 4 (transfer-codings) 
transfer-codings- "trailers" | (transfer-extension 
[accept-params]) 

举例 TE: 


TE: chunked 





Trailer 
Trailer 首部 用 于 说 明报 文 拖 挂 中 提供 了 哪些 首部 。 第 15 章 详细 说 明了 分 块 编码 
和 拖 挂 。 





类 型 通用 首部 

基本 语法 “Trailer: 1#field-name 
举例 Trailer: Content-Length 
Title 


Title 首部 不 像 人 们 所 期 望 的 那样 ， 会 给 出 实体 标题 的 规范 化 首部 。 这 个 首部 是 早 
期 HTTP/1.0 扩展 的 一 部 分 ， 主 要 用 于 HTML 页 面 ， 这 些 HTML 页 面 有 着 服务 器 可 
以 使 用 的 明确 的 标题 标记 。 但 即使 不 是 大 部 分 ， 也 有 很 多 Web 媒体 类 型 没有 便捷 的 
标题 解析 手段 ， 这 个 标题 的 用 处 有 限 。 因 此 ， 尽 管 网 络 上 一 些 比较 老 的 服务 器 仍然 
在 忠实 地 发 送 这 个 首部 ， 但 它 从 未 成 为 官方 规范 。 





类 型 响应 首部 

注释 RFC 2616 中 没有 定义 Title 首部 。 最 早 是 在 HTTP/1.0 草案 (http:// 
www.w3.org/Protocols/HTTP/HTTP2.html) 中 定义 的 ， 但 之 后 就 从 官方 
规范 中 删除 了 。 

基本 语法 Title: document-title 

举例 Title: CNN Interactive 





Transfer-Encoding 


如 果 要 通过 某 些 编码 来 安全 地 传送 HTTP 报 文 主体 ， 报 文中 就 要 包含 Transfer- 
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Encoding 首部 。 它 的 值 是 一 个 对 报 文 主体 执行 过 的 编码 的 列表 。 如 果 进 行 了 多 种 
编码 ， 就 将 其 按 序 排列 。 

Transfer-Encoding 首部 与 Content-Encoding 首部 不 同 ， 因 为 服务 器 或 其 他 中 
间 应 用 程序 是 通过 执行 Transfer-Encoding 对 要 传输 的 报 文 进行 编码 的 。 





第 15 章 介绍 过 传输 编码 。 

















类 型 通用 首部 
基本 语法 Transfer-Encoding: 1# transfer-coding 
举例 Transfer-Encoding: chunked 





UA- (CPU, Disp, OS, Color, Pixels) 

这 些 User-Agent 首部 是 非 标 准 的 ， 现 在 也 不 常见 了 。 它 们 提供 了 客户 端 机 器 的 相 
关 信 息 ， 以 便服 务 器 更 好 地 进行 内 容 选 择 。 比 如 ， 如 果 服 务 器 知道 用 户 机 器 只 有 一 
个 8 位 彩色 显示 器 ， 服 务 器 就 可 以 选择 适合 那 类 显示 器 的 图 片 了 。 








有 些 首 部 给 出 了 与 客户 端 相关 的 信息 ， 不 使 用 这 些 首部 就 无 法 获知 这 些 信 息 。 所 有 
这 样 的 首部 都 有 一 些 安全 方面 的 隐患 〈 更 多 信息 参见 第 14 章 )。 


类 型 扩展 请 求 首 部 
注释 RFC 2616 没有 定义 这 些 首部 ， 而 且 不 推荐 使 用 这 些 首部 。 
基本 语法 "UA" "-" ("CPU" | "Disp" | "og" | "Color" | "Pixels") 


":" machine-value 
machine-value = (cpu | screensize | os-name |display- 


color-depth) 





举例 UA-CPU: x86 客户 端 机 器 的 CPU 
UA-Disp: 640, 480, 8 RP RETER ee 6, 22 RA 
UA-OS: Windows 95 d P aW 8 ETE A UL 
UA-Color: color8 客户 痛 显 示 器 的 色彩 深度 
UA-Pixels: 640X480 客户 端 显 示 器 的 尺寸 
Upgrade 


Upgrade 首部 为 报 文 发 送 者 提供 了 一 种 手段 ， 使 其 指定 另 一 种 可 能 完全 不 同 协议 并 
将 此 意愿 向 外 广播 。 比 如 ，HTTP/1.1 客户 端 可 以 向 服务 器 发 送 一 条 HTTP/1.0 请 求 ， 
其 中 包含 了 值 为 “HTTP/1.1” 的 Update 首部 ， 这 样 客户 端 就 可 以 测试 一 下 服务 器 
是 否 也 使 用 HTTP/1.1 了。 
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如 果 服 务 器 也 可 以 使 用 HITP/1.1， 就 可 以 发 送 一 条 适当 的 响应 ， 让 客户 端 知道 可 以 
使 用 新 的 协议 。 这 样 就 提供 了 一 种 切换 使 用 其 他 协议 的 有 效 方式 。 现 在 大 部 分 服务 
器 都 只 兼容 HTTP/1.0， 通 过 这 种 策略 ， 在 判定 服务 器 确实 能 够 使 用 HTTP/1.1 之 前 ， 
客户 端 就 不 会 用 很 多 的 HTTP/1.1 首部 骚扰 服务 器 了 。 























服务 器 发 送 101 Switching Protocols 响应 时 ， 必 须 包 含 这 个 首部 。 


类 型 通用 首部 
基本 语法 Upgrade: 1# protocol 
举例 Upgrade: HTTP/2.0 





User-Agent 

客户 端 应 用 程序 用 User-agent 首部 来 标识 其 类 型 ， 与 服务 器 的 Server 首部 类 似 。 
它 的 值 就 是 应 用 程序 的 名 称 ， 可 能 还 会 有 一 个 描述 性 注释 。 

这 个 首部 的 格式 比较 随意 。 它 的 值 会 随 客户 端 应 用 程序 和 发 布 版 本 的 不 同 而 有 所 不 
同 。 有 时 这 个 首部 甚至 会 包含 一 些 有 关 客 户 端 机 器 的 信息 。 

与 Server 首部 一 样 ， 如 果 较 老 的 代理 或 网 关 应 用 程序 在 User-Agent 首部 中 插入 
了 与 Via 首部 等 效 的 内 容 ， 请 不 要 感到 惊奇 。 
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类 型 请 求 首部 

基本 语法 User-Agent: 1* (product | comment) 

举例 User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows 
NT 5.0) 

Vary 








服务 器 通过 vary 首部 来 通知 客户 端 ， 在 服务 器 端的 协商 中 会 使 用 哪些 来 自 客户 端 
请 求 的 首部 。” 它 的 值 是 一 个 首部 列表 ， 服 务 器 会 去 查看 这 些 首部 ， 以 确定 将 什么 
内 容 作 为 响应 发 回 给 客户 端 。 

根据 客户 端 Web 浏览 器 特性 来 发 送 特定 HTML 页 面 的 服务 器 就 是 一 例 。 为 某 个 
URL 发 送 这 些 特定 页 面 的 服务 器 会 包含 一 个 Vary 首部 ， 以 说 明 它 是 查看 了 请 求 的 
User-Agent 首部 之 后 ， 才 决定 发 送 什么 内 容 作为 响应 的 。 


代理 缓存 也 会 使 用 vary 首部 。 更 多 有 关 vary 首部 与 已 缓存 的 HTTP 响应 关联 方式 
的 信息 参见 第 7 章 。 

















注 10: 更 多 与 内 容 协商 有 关 的 内 容 参见 第 17 章 。 
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类 型 响应 首部 





基本 语法 Vary: ("*" | 1# field-name) 
举例 Vary: User-Agent 
Via 





via 首部 用 于 在 报 文 经 过 代理 和 网 关 时 对 其 进行 跟踪 。 这 是 一 个 信息 首部 ， 通 过 它 
可 以 看 出 哪些 应 用 程序 在 对 请 求 和 响应 进行 处 理 。 


报 文 在 向 客户 端 或 服务 器 传输 的 途中 经 过 某 个 HTTP 应 用 程序 时 ， 这 个 应 用 程序 可 
以 通过 via 首部 对 通过 它 传 输 的 报 文 进行 标记 。 这 是 个 HTTP/1.1 首部 ， 而 很 多 较 
老 的 应 用 程序 会 在 请 求 和 响应 的 User-RAgent 或 Server 首部 插入 类 似 via 的 字 
符 串 。 


如 果 报 文 是 通过 多 个 中 间 应 用 程序 传输 的 ， 那 么 每 个 应 用 程序 都 会 向 其 via 字符 串 
中 附加 一 些 内 容 。 必 须 通 过 HTTP/1.1 代理 和 网 关 来 插入 via 首部 。 


类 型 通用 首部 


基本 语法 via: 1# (received-protocol received-by [comment])' 























举例 Via: 1.1 joes-hardware.com ( Joes-Server/1.0) 


上 面 这 个 例子 说 明报 文 是 通过 运行 在 机 器 joes-hardware.com 上 的 Joes 的 服务 器 软 
PE 1.0 版 传输 的 。via 首部 的 格式 应 该 如 下 所 示 : 


HTTP-Version machine-hostname (Application-Name-Version) 





Warning 


Warning 首部 可 以 给 出 更 多 与 请 求 过 程 中 所 发 生 情况 有 关 的 信息 。 它 为 服务 器 提供 
了 一 种 手段 ， 可 以 发 送 除 状态 码 或 原因 短语 之 外 的 其 他 信息 。HTTP/1.1 规范 中 定义 
了 以 下 几 种 警告 代码 。 


。 101 响应 过 时 了 
当知 道 一 条 响应 报 文 已 过 期 时 〈 比 如 ， 原 始 服务 器 无 法 进行 再 验证 时 ) ， 就 必须 包含 
这 条 警告 信息 


DO 


° 111 再 验证 失败 
如 果 缓 存 试图 与 原始 服务 器 进行 响应 再 验证 ， 但 由 于 缓存 无 法 抵达 原始 服务 器 造成 
了 再 验证 失败 ， 那 就 必须 在 发 给 客户 端的 响应 中 包含 这 条 警告 信息 

















注 11: 完整 的 via 头 部 语法 参见 HTTP/1.1 规范 。 
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。 112 断 开 连接 操作 
通知 性 警告 信息 。 如 果 缓 存 到 网 络 的 连接 被 删除 了 就 应 该 使 用 此 警告 信息 。 


° 113 试探 性 过 期 
如 果 新 鲜 性 试探 过 期 时 间 大 于 24 小 时 ， 而 且 返 回 的 响应 使 用 期 大 于 24 小 时 ， 缓 存 


中 就 必须 包含 这 条 警告 信息 。 





。 199 杂项 警告 
收 到 这 条 警告 的 系统 不 能 使 用 任何 自动 响应 。 报 文中 可 能 ， 而 且 很 可 能 应 该 包含 一 
个 主体 ， 其 中 携带 了 为 用 户 提供 的 额外 信息 。 








。 214 使 用 了 转换 

如 果 中 间 应 用 程序 执行 了 任何 会 改变 响应 内 容 编 码 的 转换 ， 就 必须 由 任意 一 个 中 间 
应 用 程序 (比如 代理 ) 来 添加 这 条 警告 。 

° 299 持久 杂项 警告 

接收 这 条 警告 的 系统 不 能 进行 任何 自动 的 回应 。 错 误 中 可 能 包含 一 个 主体 i 
为 用 户 提 供 了 更 多 的 信息 。 


rkr 
$ 
Gl 


类 型 响应 首部 
基本 语法 Warning: 1# warning-value 
举例 Warning: 113 





WWW-Authenticate 

WWW-Authenticate 首部 用 于 401 Unauthorized 响应 ， 向 客户 端 发 布 一 个 质询 认证 
方案 。 第 14 章 深 入 讨论 了 www-Authenticate 首部 及 其 在 HTTP 基本 质询 /响应 
认证 系统 中 的 使 用 方法 。 

类 型 响应 首部 


基本 语法  wWW-Authenticate: 1# challenge 
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举例 WWW-Authenticate: Basic realm-"Your Private Travel 
Profile" 

X-Cache 

X 开头 的 都 是 扩展 首部 。Squid JH x- Cache 首部 来 通知 客户 端 其 个 资源 是 否 可 用 。 

类 型 扩展 响应 首部 

举例 X-Cache: HIT 
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X-Forwarded-For 
很 多 代理 服务 器 (比如 ，Squid) 会 用 这 个 首部 来 说 明 某 条 请 求 都 被 转发 给 了 谁 。 与 
前 面 提 到 的 client-ip 首部 类 似 ， 这 个 请 求 首部 说 明了 请 求 是 从 哪个 地 址 发 出 的 。 





类 型 扩展 请 求 首部 

基本 语法 X-Forwarded-For: addr 

举例 X-Forwarded-For: 64.95.76.161 
X-Pad 


这 个 首部 用 来 解决 某 些 浏览 器 中 与 响应 首部 长 度 有 关 的 bug。 它 在 响应 报 文 的 首部 
填充 了 一 些 字 节 ， 以 解决 这 个 bug, 


类 型 扩展 通用 首部 
基本 语法 x-Pad: pad-text 
举例 X-Pad: bogosity 





X-Serial-Number 


X-Serial-Number 首部 是 个 扩展 首部 。 某 些 较 老 的 HTTP 应 用 程序 会 用 它 向 HTTP 
报 文中 插入 许可 软件 的 序列 号 。 


它 基本 上 已 经 没什么 用 处 了 ， 它 只 是 作为 X 开头 的 首部 的 一 个 示例 列 在 这 里 。 


类 型 扩展 通用 首部 
基本 语法 X-Serial-Number: serialno 
举例 X-Serial-Number: 010014056 
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MIME 媒体 类 型 (简称 为 MIME 类 型 ) 是 描述 报 文 实 体 主 体内 容 的 一 些 标准 化 名 称 
(比如 ，text/html、image/jpeg)。 本 附录 说 明了 MIME 类 型 是 怎样 工作 的 、 如 何 注 
册 新 的 名 字 以 及 到 哪里 去 查找 更 多 的 相关 信息 。 


本 附录 还 包含 了 10 张 便捷 表格 ， 详 细 描述 了 从 全 球 众多 资源 中 搜集 来 的 数 百 种 
MIME 类 型 。 这 可 能 是 有 史 以 来 最 详细 的 MIME 类 型 列表 。 和 希望 这 些 表 格 会 对 你 有 所 
帮助 。 


此 附录 的 主要 内 容 有 : 


。 在 D.1 节 列 出 主要 的 参考 资料 ; 

。 在 D.2 节 解释 MIME 类 型 的 结构 ，; 

° 在 D.3 市 说 明了 如 何 注册 MIME 类 型 ; 

。 附加 的 10 张 表 格 让 你 更 便捷 地 查找 MIME 类 型 。 


本 附录 包含 了 下 列 MIME 类 型 表 : 


° application/* 一 一 表 D-3 
° audio/* 一 一 表 D-4 

。 chemical/* 一 一 表 D-5 

。 image/* 一 一 表 D-6 

K D-7 
K D-8 

° multipart/* 一 一 表 D-9 

。 text/* 一 一 表 D-10 

° video/* 一 一 表 D-11 

。 其 他 一 一 表 D-12 











。 message/* 





° model/* 


D.1 背景 知识 


MIME 类 型 最 初 是 为 多 媒体 电子 邮件 而 开发 的 ， 但 目前 在 HTTP 和 其 他 几 种 需要 描 
述 数 据 对 象 格式 和 用 途 的 协议 中 也 使 用 了 MIME 类 型 。 


MIME 主要 由 下 列 5 份 文档 定义 。 





e RFC 2045, “MIME: Format of Internet Message Bodies" (^MIME: 因特网 报 文 
主体 的 格式 ”) 
描述 了 MIME 报 文 结 构 的 概况 ， 并 介绍 了 HTTP 借用 的 content-Type 首部 。 


° RFC 2046,“MIME: Media Types” (“MIME: 媒体 类 型 ”) 
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介绍 了 MIME 类 型 及 其 结构 。 


° RFC 2047, “MIME: Message Header Extensions for Non-ASCII Text” (“MIME: 
JE ASCH 文本 的 报 文 首部 扩展 ”) 
定义 了 一 些 在 首部 包含 非 ASCI 字符 的 方式 。 

° RFC 2048, “MIME: Registration Procedures”(“MIME: 注册 过 程 ”) 
定义 了 如 何 向 因特网 号 码 分 配 机 构 (“Internet Assigned Numbers Authority, IA- 
NA") 注册 MIME 值 。 











° RFC 2049, “MIME: Conformance Criteria and Examples" ( “MIME: 一 致 性 标准 及 实例 ”) 
详细 介绍 了 一 致 性 规则 ， 并 提供 了 一 些 实例 。 


根据 HTTP 的 目标 ， 我 们 最 感 兴趣 的 文档 是 RFC 2046 和 RFC 2048, 


D.2 MIME 类 型 结构 


每 种 MIME 媒体 类 型 都 包含 类 型 、 子 类 型 和 可 选 参数 的 列表 。 类 型 和 子 类 型 由 一 个 
和 斜 杠 分 隔 ， 如 果 有 可 选 参数 的 话 ， 则 以 分 号 开始 。 在 HTTP H, MME 媒体 类 型 被 
广泛 用 于 Content-Type fll Accept 首部 。 下 面 是 几 个 例子 














Content-Type: video/quicktime 
Content-Type: text/html; charset-"iso-8859-6" 
Content-Type: multipart/mixed; boundary-gcOp4Jq0M2Yt08j34cO0p 





Accept: image/gif 


D.2.1 离散 类 型 

MIME 类 型 可 以 直接 用 于 描述 对 象 类 型 ， 也 可 以 用 于 描述 其 他 对 象 类 型 的 集合 或 类 
型 包 。 如 果 直 接 用 MIME 类 型 来 描述 某 个 对 象 类 型 ， 它 就 是 一 种 离散 类 型 (discrete 
type) 。 其 中 包括 文本 文件 、 视 频 和 应 用 程序 特有 的 文件 格式 。 





D.2.2 复合 类 型 

如 果 MIME 类 型 描述 的 是 其 他 内 容 的 集合 或 封装 包 ， 这 种 MIME 类 型 就 被 称 为 复合 
类 型 (composite type)。 复 合 类 型 描述 的 是 封装 包 的 格式 。 将 封装 包 打 开 时 ， 其 中 
包含 的 每 个 对 象 都 会 有 其 各 自 的 类 型 。 








D.2.3 多 部 分 类 型 
多 部 分 媒体 类 型 是 复合 类 型 。 多 部 分 对 象 包含 多 个 组 件 类 型 。 下 面 是 一 个 多 部 分 / 
混合 内 容 实 例 ， 每 个 组 件 都 有 自己 的 MIME 类 型 ， 





MIME 类 型 | 559 








534 














535 








Content-Type: multipart/mixed; boundary=unique-boundary-1 


--unique-boundary-1 
Content-type: text/plain; charset-US-ASCII 


Hi there, I'm some boring ASCII text... 


--unique-boundary-1 
Content-Type: multipart/parallel; boundary-unique-boundary-2 


--unique-boundary-2 
Content-Type: audio/basic 





8000 Hz single-channel mu-law-format 
audio data goes here 


--unique-boundary-2 
Content-Type: image/jpeg 


image data goes here 
--unique-boundary-2-- 


--unique-boundary-1 
Content-type: text/enriched 


This is «bold»«italic»enriched.«/italic»«/bold» 
«smaller»as defined in RFC 1896-/smaller» 


Isn't it «bigger»«bigger»cool?«/bigger»«/bigger» 


--unique-boundary-1 
Content-Type: message/rfc822 


From: (mailbox in US-ASCII) 

To: (address in US-ASCII) 

Subject: (subject in US-ASCII) 

Content-Type: Text/plain; charset-ISO-8859-1 
Content-Transfer-Encoding: Quoted-printable 





Additional text in ISO-8859-1 goes here 


--unique-boundary-1-- 


D.2.4 语法 
如 前 所 述 ，MIME 类 型 由 主 类 型 、 子 类 型 和 可 选 参数 的 列表 组 成 。 


主 类 型 可 以 是 预定 义 类 型 、IETF 定义 的 扩展 标记 ， 或 者 〈 以 “x-” 开 头 的 ) 实 


验 性 标记 。 表 D-1 列 出 了 一 些 常见 的 主 类 型 。 
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表 D-1 常见 的 主 MIME 类 型 
类 m 描述 
application 应 用 程序 特有 的 内 容 格式 (离散 类 型 ) 
audio 音频 格式 (离散 类 型 ) 
chemical 学 数据 集 (离散 IETF 扩展 类 型 ) 
image 到 片 格式 (离散 类 型 ) 
message 报 文 格式 (复合 类 型 ) 
model 三 维 模型 格式 (离散 IETF 扩展 类 型 ) 
multipart 多 部 分 对 象 集合 (复合 类 型 ) 
text 文本 格式 (离散 类 型 ) 
video 视频 电影 格式 (离散 类 型 ) 


子 类 型 可 以 是 主 类 型 〈 比 如 ， “text/text”), IANA 注册 的 子 类 型 ， 或 者 是 〈 以 “x-” 


开头 的 ) 实验 性 扩展 标记 。 
类 型 和 子 类 型 都 是 由 US-ASCII 字符 的 一 个 子 集 构成 的 。 空 格 和 某 些 保留 分 组 以 及 
标点 符号 称 为 “tspecials”， 它 们 是 控制 字符 ， 不 能 用 于 类 型 和 子 类 型 名 。 





RFC 2046 定义 的 语法 如 下 所 示 : 














TYPE := "application" | "audio" "image" "message" | "multipart" | 
"text" | "video" | IETF-TOKEN | X-TOKEN 
SUBTYPE :- IANA-SUBTOKEN | IETF-TOKEN | X-TOKEN 





«extension token with RFC and registered with IANA- 
«extension token registered with IANA-» 


IETF-TOKEN :- 
IANA-SUBTOKEN :- 








X-TOKEN := «"X-" or "x-" prefix, followed by any token» 
PARAMETER :- TOKEN "-" VALUE 
VALUE :- TOKEN / QUOTED-STRING 
TOKEN := l*<any (US-ASCII) CHAR except SPACE, CTLs, or TSPECIALS» 
TSPECIALS :- "(" | "y" | "<" | ">" | "gn | 
"o" | "o" | "an | "r" | gta | 


"=" 


"]" | 


"on | 


wn 


D.3 在 IANA 注册 MIME 类 型 

RFC 2048 描述 了 MIME 媒体 类 型 的 注册 过 程 。 使 用 注册 过 程 的 目的 不 仅 能 简化 注 
册 新 媒体 类 型 的 过 程 ， 而 且 还 能 提供 一 些 完 整 性 检测 ， 以 确保 新 类 型 是 经 过 深思 熟 
虐 后 提出 的 。 


| "[" | 
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D.3.1 注册 树 
MIME 类 型 标记 被 分 成 了 4 类 ， 称 为 “注册 树 ”， 每 一 类 都 有 自己 的 注册 规则 。 表 
D-2 描述 了 这 4 棵 树 一 一 IETF、 厂 商 、 个 人 和 实验 性 的 树 。 


表 D-2 4 种 MIME 媒 体 类 型 注册 树 
注 册 树 举 B 描 述 

IETF text/html (HTML XÆ) IETF 树 用 于 那些 对 因特网 来 说 具有 普遍 意义 的 类 
型 。 新 的 IETF 树 媒 体 类 型 要 由 因特网 工程 指导 组 
(Internet Engineering Steering Group, IESG)  t& 
批 ， 并 且 要 有 一 个 附属 的 标准 追踪 RFC 
IETF 树 类 型 标记 中 没有 句点 C) 

厂商 (vnd.) image/vnd.fpx 商 树 用 于 可 商用 产品 的 媒体 类 型 。 鼓 励 大 家 进 

(柯达 的 FlashPix 图 片 )” 行 新 厂商 类 型 的 公开 评审 ,但 并 不 强制 这 么 做 。 
三 商 树 类 型 以 vnd. 开头 



































































































































个 人 /不 重要 的 (prs.) image/prs.btif 私有 、 个 人 或 不 重要 的 媒体 类 型 可 以 注册 在 个 人 
(美国 国家 银行 使 用 的 内 “ 树 中 。 这 些 媒 体 类 型 不 应 该 进行 商业 化 发 布 。 
部 检查 管理 格式 ) 个 人 数 类 型 以 prs. 开头 
实验 性 (x- 或 x.) application/x-tar 实验 树 用 于 未 注册 或 实验 性 的 媒体 类 型 。 由 于 注 
(Unix 的 tar 档案 ) 册 新 的 厂商 或 个 人 媒体 类 型 的 过 程 相 对 简单 ， 所 
以 不 应 该 广泛 地 发 布 使 用 x- 类 型 的 软件 。 
实验 树 类 型 以 x. 或 x- 开头 


D.3.2 注册 过 程 
关于 MIME 媒体 类 型 的 注册 过 程 请 仔细 陪读 RFC 2048。 


基本 的 注册 过 程 并 不 是 官方 的 标准 过 程 ， 只 是 一 个 管理 过 程 ， 目 的 是 在 尽 短 时 间 内 ， 
就 能 通过 IANA 对 新 类 型 的 完整 性 检查 ， 将 其 记录 在 注册 表 中 。 这 个 过 程 遵 循 下 列 
步骤 。 
(1) 将 媒体 类 型 提交 给 IANA 审阅 。 
向 ietf-types@iana.org 邮件 列表 发 送 一 封 媒体 类 型 注册 建议 书 ， 审 阅 期 为 两 周 。 
发 布 公告 ， 征 求 公 众 对 名 字 、 互 操作 性 和 安全 问题 的 反馈 意见 。 在 注册 完成 之 
前 ， 都 可 以 使 用 RFC 2045 中 指定 的 前 级 x-。 


(2) IESG 审批 〈 仅 对 IETF 树 而 言 ) 


如 果 要 将 媒体 类 型 注册 到 ETF 树 中 去 ， 就 必须 提交 给 IESG 审批 ， 而 且 必 须 有 
一 个 附加 的 标准 追踪 RFC. 
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(3) IANA 注册 


只 要 媒体 类 型 达到 了 审批 要 求 ， 作 者 就 可 以 通过 例 D-1 中 的 电子 邮件 模板 向 
IANA 提交 注册 请 求 ， 并 将 注册 信息 发 送 到 ietf-types@iana.org。IANA 会 注册 
媒体 类 型 ， 在 http://www.isi.edu/in-notes/iana/assignments/media-types/ 上 向 公 
众 提供 该 媒体 类 型 应 用 程序 。 


D3.3 注册 规则 


只 有 在 响应 IESG 批准 某 指定 注册 申请 的 通知 时 ，IANA 才能 在 IETF 树 中 注册 媒体 


只 要 满足 下 面 这 些 条 件 ，IANA 就 会 自动 注册 厂商 和 个 人 类 型 ， 不 需要 进行 任何 正 
式 的 审查 。 


(1) 媒体 类 型 一 定 要 像 实际 的 媒体 格式 一 样 工作 。 像 传输 编码 或 字符 集 那 样 工作 的 
类 型 是 不 能 注册 为 媒体 类 型 的 。 


(2) 所 有 媒体 类 型 都 要 有 适当 的 类 型 和 子 类 型 名 。 所 有 类 型 名 都 要 由 标准 追踪 RFC 
定义 。 所 有 子 类 型 名 都 必须 是 唯一 的 ， 必 须 与 那 类 名 称 的 MIME 语法 相符 ， 而 
且 必 须 包含 恰当 的 树 前 级。 


(3) 个 人 树 类 型 必须 提供 格式 规范 或 指向 格式 规范 的 指针 。 
(4) 不 要 忽略 安全 问题 。 所 有 开发 因特网 软件 的 人 都 要 为 防范 安全 漏洞 作出 贡献 。 














D.3.4 注册 模板 

实际 的 IANA 注册 是 通过 电子 邮件 完成 的 。 可 以 用 例 D-1 中 显示 的 模板 来 完成 注册 
表格 ， 并 将 其 发 送 到 ietf-types@iana.org, ' 

例 D-1 IANA 的 MIME 注册 电子 邮件 模板 


To: ietf-types@iana.org 
Subject: Registration of MIME media type XXX/YYY 

















MIME media type name: 





注 1: 这 个 格式 没有 很 严格 的 结构 ， 稍 做 调整 并 不 会 影响 信息 阅读 ， 但 由 机 器 处 理 则 比较 困难 。 这 就 是 很 难 
找到 一 份 可 读 的 、 经 过 良好 组 织 的 MIME 类 型 小 结 的 原因 之 一 ， 这 也 是 我 们 在 本 附录 末尾 创建 那些 
表格 的 原因 。 
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MIME Subtype name: 
Required parameters: 
Optional parameters: 
Encoding considerations: 
Security considerations: 
Interoperability considerations: 
Published specification: 
Applications which use this media type: 
Additional information: 

Magic number(s): 

File extension(s): 

Macintosh File Type Code(s): 
Person & email address to contact for further information: 
Intended usage: 
(One of COMMON, LIMITED USE or OBSOLETE) 
Author/Change controller: 


(Any other information that the author deems interesting may be added 
below this line.) 


D.3.5 ” MIME 媒体 类 型 注册 

可 以 通过 IANA 的 网 站 (http://www.iana.org) 访问 那些 已 提交 的 表格 。 编 写本 
书 时 ， 实 际 存储 MIME 媒体 类 型 的 数据 库 位 于 http://www.isi.edu/in-notes/iana/ 
assignments/media-types/ 的 ISI Web 服务 器 上 。 


媒体 类 型 存储 在 一 棵 目录 树 中 ， 以 主 类 型 和 子 类 型 进行 结构 划分 ， 每 种 媒体 类 型 都 
有 一 个 叶子 文件 。 每 个 文件 中 都 包含 了 电子 邮件 提交 信息 。 但 是 ， 每 个 人 所 完成 的 
注册 模板 都 略 有 不 同 ， 因 此 ， 不 同人 提交 的 信息 质量 和 格式 都 有 所 不 同 。( 在 本 附录 
的 表格 中 ， 我 们 试 着 填补 了 注册 用 户 忽略 的 部 分 。) 




















D.4 MIME 类 型 表 


本 节 在 10 张 表格 中 对 数 百 种 MIME 类 型 进行 了 总 结 。 每 张 表格 都 列 出 了 一 个 特定 
主 类 型 (image. text 等 ) 中 的 MIME 媒体 类 型 。 





564 | 附录 DD 


这 些 信息 是 从 很 多 地 方 搜集 来 的 ， 包 括 IANA 的 媒体 类 型 注册 登记 处 、Apache 的 
mime.types 文件 ， 以 及 各 种 各 样 的 因特网 Web 页 面 。 我 们 花 了 好 多 天 来 提炼 数据 ， 
填补 漏洞 ， 并 在 其 中 包含 了 交叉 参考 文献 中 的 描述 性 总 结 ， 使 数据 的 可 用 性 更 高 。 


这 可 能 是 有 史 以 来 最 详细 的 MIME 类 型 清单 列表 了 。 希 望 对 你 有 所 帮助 ! 





D.4.1 application/* 
R D-3 描述 了 很 多 应 用 程序 特有 的 MIME 媒体 类 型 。 


表 D-3 Application MIME 类 型 











MIME 类 型 描 述 扩 展 联系 方式 与 参考 文献 
application/ 支持 主动 邮件 群 件 系统 Readings in Groupware and Computer- 
activemessage Supported CooperativeWork, “Active 


Mail: A Framework for Integrated 
Groupware Applications”, Ronald M. 
Baecker，Morgan Kaufmann 出 版 社 ， 




















ISBN1558602410 
application/ 支持 用 安德鲁 工具 集 创建 多 媒体 ez Multimedia Applications Development 
andrew-inset 内 容 with the Andrew Toolkit,Nathaniel 








S. Borenstein，Prentice Hall 出 版 社 ， 
AS-IN 0130366331 


nsb@bellcore.com 























application/ 在 允许 对 非特 定 用 户 数据 进行 一 RFC 1740 
applefile 般 性 访问 的 同时 ， 人 允许 对 带 有 
Apple/Macintosh 特有 信息 的 数据 
进行 基于 MIME 的 传输 
application/ ATOMICMAIL 是 贝尔 通信 研究 “ATOMICMAIL Language Reference 
atomicmail 所 的 一 个 实验 型 研究 项 目 ， 设 Manual”, Nathaniel S. Borenstein, 
计 用 来 在 电子 邮件 报 文中 包含 贝尔 科技 备忘录 ，TM ARH-018429 








一 些 在 阅读 邮件 时 会 执行 的 程 
序 。 对 safe-tcl 的 支持 会 很 快 使 
ATOMICMAIL 过 时 


application/ 定义 了 一 个 MIME 内 容 类 型 ， 可 RFC 2442 
batch-SMTP 以 用 隧道 方式 通过 任意 能 够 进行 
MIME 传输 的 路 径 实现 ESMTP 
邮件 事务 
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MIME 类 型 描 B 扩 联系 方式 与 参考 文献 
application/ 支持 名 为 BEEP 的 交互 协议 。 RFC 3080 
beep+xml BEEP 支持 在 对 等 实体 之 间 对 
MIME 报 文 进行 同步 且 独 立 的 交 
互 ， 这 些 报 文通 常 都 是 XML 结 
构 的 文本 
application/cals- | 支持 对 美国 国防 部 数字 数据 进行 RFC1895 
1840 MIME 电子 邮件 交换 ， 早 期 这 些 
数据 是 MILSTD-1840 定义 的 由 
磁带 实现 数据 交换 的 
application/ Common Ground 是 个 电子 文档 交 Nick Gault 
commonground | 换 及 发 布 程序 ， 允 许 用 户 创建 一 No Hands 软件 
些 文档 ， 这 些 文档 无 需 在 系统 中 ngault@nohands.com 
创建 任何 应 用 程序 或 字体 ， 所 有 
人 都 可 以 查看 、 搜 索 和 打印 
application/ 支持 通过 CyberCash 协议 进行 信 RFC 1898 
cybercash 用 卡 支付 。 用 户 开 始 付 费时 ， 商 
家 会 向 客户 发 送 一 条 报 文 ， 作 为 
MIME 类 型 application/cybercash 
的 报 文 主体 使 用 
application/dca- | IJBM 文档 内 容 结 构 “IBM Document Content Architec-ture/ 
rft Revisable Form Text Reference” , 
档 号 SC23-0758-1， 国 际 商 用 机 器 公 
司 (International Business Machines, 
IBM) 
application/dec- | DEC 的 文档 传输 格式 “Digital Document Transmission 
dx (DX) Technical Notebook", X f 
EJ29141-86, Zr Wu (DEC, 
Digital Equipment Corporation) 
application/dves | 支持 DVCS (Data Validation and RFC 3029 
Certification Server， 数 据 验证 及 
证 书 服务 器 ) 所 使 用 的 协议 ， 该 
服务 器 在 公共 密 钥 安全 架构 中 作 
为 第 三 方 受 信 站 点 使 用 的 
application/ 支持 通过 EDI (electronic data http://www.isi.edu/in-notes/iana/ass- 


EDI-Consent 





























































































































interchange， 电 子 数据 交换 ) 用 
非 标 准 的 规范 进行 双边 贸易 














ignments/media-types/application/ 


EDI-Consent 
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MIME 类 型 描 jë 扩 联系 方式 与 参考 文献 
application/ 支持 通过 EDI 用 ASC X12 EDI http://www.isi.edu/in-notes/iana/ 
EDI-X12 规范 进行 双边 贸易 assignments/media-types/application/ 

EDI-X12 
application/ 支持 通过 EDI 用 EDIFACT 规范 http://www.isi.edu/in-notes/iana/ 
EDIFACT 进行 双边 贸易 assignments/media-types/application/ 
EDIFACT 
application/ 未 知 Steve Katz 
eshop 系统 结构 商店 
steve_katz@eshop.com 
application/ 定义 了 包含 一 组 字形 的 PFR RFC 3073 
font-tdpfr (Portable Font Resource, EIER 
字体 资源 ) ， 每 个 字形 都 与 一 个 字 
符 码 相关 
application/http | 用 于 封装 由 一 条 或 多 条 HTTP 请 求 或 RFC 2616 
响应 报 文 (不 混合 ) 构成 的 管道 
application/ 支持 HyperStudio 教学 超 媒 体 文 stk http://www.hyperstudio.com 
hyperstudio 件 的 传输 
application/iges | CAD 模型 交换 的 常用 格式 “ANS/US PRO/IPO-100” U.S. Product 
Data Association2722 Merrilee Drive, 
Suite 200 Fairfax, VA 22031-4499 
application/ X # CIP (Common Indexing RFC 2652, RFC 2651, RFCI913 和 
index Protocol, 2x JE Z8 5| C). CIP RFC1914 
application/ 是 对 Whois++ 目录 服务 的 发 展 ， 
index.cmd 用 于 在 服务 器 间 传 送 索引 信息 ， 
application/ 以 便 通 过 分 布 式 数据 库 系统 来 重 
index.obj 定向 或 复制 请 求 
application/ 


index.response 
application/ 


index.vnd 


application/iotp 








支持 在 HTTP 上 发 送 IOTP (Inte- 
因 特 





rnet Open Trading Protocol, 


网 开放 贸易 协议 ) 报 文 











RFC 2935 
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MIME 类 型 描 xh J R 联系 方式 与 参考 文献 
application/ipp 支持 在 HTTP 上 使 用 IPP (Internet RFC 2910 
Printing Protocol， 因 特 网 打印 协 
议 ) 
application/ 将 8 位 字 节 的 字符 串 编 码 为 7 位 hqx RFC 1341 
mac-binhex40 字 节 的 字符 串 ， 这 样 对 某 些 应 用 
程序 来 说 更 安全 一 些 (没有 6 位 
的 Base-64 编码 安全 ) 
application/mac- | 来 自 Apache 的 mime.types cpt 
compactpro 
application/ Claris MacWrite II 
macwriteii 
application/marc | MARC 对 象 是 机 读 编 目 记 录 一 一 mrc RFC 2220 
书目 及 相关 信息 的 表示 和 通信 标 
准 
application/ 支持 Mathematica 和 MathReader | nb. ma. | The Mathematica Book, Stephen 
mathematica 数值 分 析 软 件 mb Wolfram， 剑 桥 大 学 出 版 社 , ISBN 
application/ 0521643147 
mathematica-old 
application/ 微软 的 Word MIME 类 型 doc 
msword 
application/news- RFC 822 ( 报 文 ID)、REFC1036 (新 
message-id 闻 应 用 程序 ) 以 及 RFC977 (NNTP) 
application/news- | 允许 通过 电子 邮件 或 其 他 传输 方 RFC 1036 
transmission 式 传送 新 闻 文章 
application/ 支持 OCSP (Online Certificate orq RFC 2560 
ocsp-request Status Protocol， 在 线 证 书 状 态 协 
议 ) ， 此 协议 提供 了 一 种 无 需 本 地 
证 书 撤销 列表 即 可 查看 数字 证 书 
有 效 性 的 方法 
application/ 同上 ors RFC 2560 
ocsp-response 
application/ 未 分 类 的 二 进 制 数据 bin. dms. | REFC 1341 
octet-stream lha, Izh, 
exe, class 
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MIME 类 型 描 R 扩 联系 方式 与 参考 文献 

application/oda | 根 ## ODA (Office Document oda RFC 1341 
Architecture， 办 公文 档 结 构 ) 标 ISO 8613; “Information Processing: 
准 ， 用 ODIF (Office Document Text and Office System; Office 
Interchange Format， 兴 公文 档 交 Document Architecture (ODA) and 
互 格式 ) 表示 法 对 信息 进行 编码 。 Interchange Format (ODIF)”, # 1-8 
Content-Type 行 也 应 该 像 : 部 分 ，1989 年 
Content-Type:application/ 
oda;profile-0112 
这 样 指 定 用 来 说 明 DAP (document 
application profile， 文 档 应 用 外 
观 ) 的 属性 / 值 对 

application/ RTP 数据 流 的 前 向 纠 错 奇偶 码 RFC 3009 

parityfec 

application/pdf | Adobe PDF 文件 pdf 参见 Portable Document Format Reference 

Manual, Adobe System, Inc. Addison 
Wesley, ISBN0201626284 

application/pgp- | PGP 加 密 数据 RFC 2015 

encrypted 

application/pgp- | PGP 公共 密 钥 块 RFC 2015 

keys 

application/pgp- | PGP 加 密 签 名 RFC 2015 

signature 

application/ 公共 密 钥 加 密 系 统 #10 一 传输 p10 RFC 2311 

pkcs10 PKCS #10 证 书 请 求 时 ， 主 体 类 型 
必须 用 application/pkcs10 

application/ 公共 密 钥 加 密 系统 #7 一 一 这 种 类 p7m RFC 2311 

pkcs7-mime 型 用 于 传送 包括 envelopedData 
和 signedData 在 内 的 几 种 类 型 的 
PKCS #7 对 象 

application/ 公共 密 钥 加 密 系 统 #7—— 这 种 类 p7s RFC 2311 

pkcs7-signature | 型 总 是 包含 一 个 signedData 类 型 
的 PKCS #7 对 象 

application/ 传输 X.509 证 书 cer RFC 2585 

pkix-cert 

application/ 传输 X.509 证 书 撤 销 列表 crl RFC 2585 

pkix-crl 
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MIME 类 型 描 述 扩 FE 联系 方式 与 参考 文献 
application/ X.509 公共 密 钥 基础 设施 证 书 管 pki RFC 2510 
pkixcmp 理 协议 所 使 用 的 报 文 格式 
application/ Adobe PostScript 图 像 文 件 (程序 ) | ai、ps、 | RFC 2046 
postscript eps 
application/ Harald T. Alvestrand 和 的 “TimeTracker” http://domen.uninett.no/~hta/titrax/ 
prs.alvestrand. 程序 
titrax-sheet 
application/prs. | Windows 下 的 CU-Writer cw、cww | Somchai Prasitjutrakul 博士 
CWW somchaip €? chulkn.car.chula.ac.th 
application/prs. | 未 知 rnd, rct | John M. Doggett 
nprend jdoggett G tiac.net 
application/ 包含 了 远程 打印 时 用 于 打印 机 封 RFC 1486 


remote-printing 


application/ 


riscos 


application/sdp 


application/set- 
payment 
application/ 
set-payment- 
initiation 
application/set- 
registration 
application/set- 
registration- 


initiation 


application/ 
seml-open- 


catalog 


application/ 


sieve 








面 的 元 信息 


T 


Acorn 的 RISC OS 二 进 制 文件 





SDP 用 于 描述 各 种 多 媒体 会 话 ， 目 
的 是 进行 会 话 声明 、 会 话 邀 请 以 及 
其 他 形式 的 多 媒体 会 话 初始 化 











支持 SET 安全 电 





子 交 易 支 付 协 议 


用 于 支持 SGML Open TR9401: 1995 
“实体 管理 ”规范 的 系统 


Sieve 邮件 过 滤 脚 本 








Marshall T. Rose 


mrose@dbc.mtview.ca.us 


RISC OSProgrammer's Reference 
Manuals, AcornComputers,Ltd., 
ISBN1852501103 


RFC 2327 
Henning Schulzrinne 


hgs Q cs.columbia.edu 


http://www.visa.com 


http://www.mastercard.com 


SGML Open 
910 Beaver Grade Road, #3008 
Coraopolis, PA 15109 


info? sgmlopen.org 


RFC 3028 
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MIME 类 型 描 R 扩 m 联系 方式 与 参考 文献 
application/slate | BBN/Slate 文档 格式 是 作为 BBN/ BBN/Slate Product Mgr 
Slate 产品 标准 文档 集 的 一 部 分 发 BBN Systems and Technologies 
布 的 10 Moulton Street 
Cambridge, MA 02138 
application/smil | SMIL (同步 多 媒体 集成 语言 ， smi, smil | http://www.w3.org/AudioVideo/ 
Synchronized Multimedia Integration 
Language) 将 一 组 独立 的 多 媒体 
对 象 整合 成 了 一 种 同步 多 媒体 表 
示 形 式 
application/tve- | 支持 在 增强 型 电视 接收 器 里 鞭 入 “SMPTE: Declarative Data Essence， 
trigger URL Content Level 1”， 由 电影 电视 工程 
师 协会 生成 。 
http://www.smpte.org 
application/ 增强 型 videotex 标准 RFC 2122 
vemmi 
application/ 由 Post-it^ 因特网 设计 者 须知 pwn http://www.3M.com/psnotes/ 
vnd.3M.Post-it- | 特 网 控制 /插件 使 用 
Notes 
application/vnd. | Simply Accounting 软件 的 7.0 及 aso http://www.ofx.net 
accpac.simply. 以 上 版 本 。 这 种 类 型 的 文件 与 
aso Open Financial Exchange 版 本 1.02 
的 规范 一 致 
application/vnd. | Simply Accounting 软件 的 7.0 及 imp http://www.ofx.net 


accpac.simply. 


imp 


application/vnd. 


acucobol 


application/vnd. 


aether.imp 


application/ 
vnd.anser-Web- 
certificate- 


issue-initiation 


























以 上 版 本 使 用 ， 
的 数据 


] 于 输入 它 自己 

















ACUCOBOL-GT Runtime 


支持 在 AOL 即时 通信 、Yahoo! 
Messenger 或 MSN Messenger 这 
样 的 即时 消息 服务 ， 和 运行 在 无 
线 设备 上 的 特殊 即时 通信 客户 端 
软件 集 之 间 进 行 高 效 的 即时 消息 
通信 








Web 浏览 器 装载 ANSER-WEB- 
Terminal Client 程序 的 触发 器 





cii 





Dovid Lubin 


dovid ? acucobol.com 


有 许可 证 就 可 以 从 Aether 系统 


B 3k 


得 IMP (Wireless Instant Messaging 





Protocol, 


Hiroyoshi Mori 


mori ? mm.rd.nttdata.co.jp 


无 线 即时 通信 协议 ) 规范 
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MIME 类 型 描 R 扩 FE 联系 方式 与 参考 文献 

application/ 同上 fti 同上 
vnd.anser-Web- 
funds-transfer- 
initiation 
application/vnd. | AudioGraph aep Horia Cristian 
audiograph H.C.Slusanschi@massey.ac.nz 
application/vnd. | CADAM 系统 的 BMI 图 像 格式 bmi Tadashi Gotoh 
bmi tgotoh@cadamsystems.co.jp 
application/vnd. | BusinessObjects4.0 及 以 上 版 本 rep 
businessobjects 
application/vnd. | 支持 佳能 公司 的 办 公 图 像 产品 Shin Muto 
canon-cpdl shinmuto G pure.cpdc.canon.co.jp 
application/vnd. 
canon-lips 
application/vnd. | Claymore.exe cla Ray Simpson 
claymore ray € cnation.com 
application/ 支持 一 种 通用 的 智能 卡 卡 载 信息 | ica. icf, | David C. Applebaum 
vnd.commerce- | 定 界 机 制 ， 可 用 于 数字 商务 、 身 | icd、icc、| applebau@131.167.52.15 
battelle 份 识 别 、 认 证 以 及 基于 智能 卡 的 | ic0、ic1、 

持 证 人 信息 交互 ic2、ic3、 

ic4, ic5, 
ic6, ic7, 
ic8 

application/vnd. | 允许 通过 基于 MIME 的 进程 正确 | csp, cst | Ravinder Chandhok 
commonspace 传输 CommonSpace TM X ff, Com- chandhok Q within.com 

monSpace 是 由 HoughtonMifflin Zx 

司 的 Sixth Floor Media 发 布 的 
application/vnd. | 用 于 CONTACT 软件 的 CIM cdbcmsg | Frank Patz 
contact.cmsg DATABASE fp@contact.de 

http://www.contact.de 

application/vnd. | 允许 从 Web 站 点 下 载 包含 了 连接 cmc Steve Dellutri 
cosmocaller 参数 的 文件 ， 调 用 CosmocCaller sdellutri@cosmocom.com 

应 用 程序 对 参数 进行 解释 ， 并 初 

始 化 与 CosmoCallACD 服务 器 的 
application/vnd. | Continuum 技术 公司 的 PosML pml Bayard Kohlhepp 
ctc-posml bayardk G ctcexchange.com 
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application/vnd. | 支持 UNIX 通用 打印 系统 的 服务 http://www.cups.org 
cups-postscript | 器 和 客户 端 
application/vnd. 
cups-raster 
application/vnd. 
cups-raw 
application/vnd. | Cybank 数据 特有 的 数据 类 型 Nor Helmee B. Abd. Halim 
cybank helmee @cybank.net 

http://www.cybank.net 
application/vnd. | DNA 的 目标 是 便捷 地 将 所 有 32 dna Meredith Searcy 
dna 位 的 Windows 应 用 程序 都 转换 成 msearcy@newmoon.com 
Web 程序 
application/vnd. | 由 DpGraph 2000 和 MathWare | dpg、mwc | David Parker 
dpgraph Cyclone 使 用 dpgraph | http://www.davidparker.com 
application/vnd. | PSI 技 术 公 司 的 Digital Xpress Re- dxr Michael Duffy 
dxr ports miked G psiaustin.com 
application/vnd. | X f$ ECDIS 应 用 程序 http://www.sevencs.com 
ecdis-update 
application/vnd. | EcoWin mag Thomas Olsson 
ecowin.chart thomas Q vinga.se 
application/ 
vnd.ecowin. 
filerequest 
application/ 
vnd.ecowin. 
fileupdate 
application/vnd. 
ecowin.series 
application/ 
vnd.ecowin. 
seriesrequest 
application/ 
vnd.ecowin. 
seriesupdate 
application/vnd. | X f$ Enliven 交互 式 多 媒体 的 传输 nml Paul Santinelli 
enliven psantinelli € narrative.com 
application/vnd. | 精工 爱普生 QUASS 流 播放 器 的 esf Shoji Hoshina 
epson.esf 特有 内 容 Hoshina.Shoji@exc.epson.co.jp 
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MIME 类 型 描 xh J R 联系 方式 与 参考 文献 
application/vnd. | 精工 爱普生 QUASS 流 播放 器 的 msf 同上 
epson.msf 特有 内 容 
application/ 精工 爱普生 QuickAnime 播放 器 qam Yu Gu 
vnd.epson. 的 特有 内 容 guyu@rd.oda.epson.co.jp 
quickanime 
application/vnd. | 精工 爱普生 SimpleAnimeLite 播 slt Yasuhito Nagatomo 
epson.salt 放 器 的 特有 内 容 naga@rd.oda.epson.co.jp 
application/vnd. | 精工 爱普生 QUASS 流 播放 器 的 ssf Shoji Hoshina 
epson.ssf 特有 内 容 Hoshina.Shoji@exc.epson.co.jp 
application/ 电话 倍增 器 快速 呼叫 qcall, | Paul Tidwell 
vnd.ericsson. qca paul.tidwell G ericsson.com 
quickcall http://www.ericsson.com 
application/vnd. | Eudora 4.3 及 以 上 版 本 Pete Resnick 
eudora.data presnick@qualcomm.com 
application/vnd. | Adobe 表单 数据 格式 Forms Data Format (表单 数据 格 
fdf 式 ) Technical Note 5173, Adobe 

Systems 

application/vnd. | 用 于 与 FirstFloor 的 Smart Delivery Mary Holstege 
ffsns 进行 通信 的 应 用 程序 holstege@firstfloor.com 
application/vnd. | NpGraphlt gph 
FloGraphIt 
application/vnd. | Adobe FrameMaker 文件 fm, mif, | http://www.adobe.com 
framemaker book 
application/vnd. | 支持 Friendly 软件 公司 的 高 尔 夫 fsc Derek Smith 
fsc.Weblaunch 模拟 软件 derek @friendlysoftware.com 
application/vnd. | 支持 富士 通 的 OASYS 软件 oas Nobukazu Togashi 
fujitsu.oasys togashi@ai.cs.fujitsu.co.jp 
application/vnd. 
fujitsu.oasys2 
application/vnd. | 支持 富士 通 的 OASYS V2 软件 oa2 同上 
fujitsu.oasys2 
application/vnd. | 支持 富士 通 的 OASYS V5 软件 oa3 Seiji Okudaira 
fujitsu.oasys3 okudaira@candy.paso.fujitsu.co.jp 
application/vnd. | 支持 富士 通 的 OASYS GraphPro fg5 Masahiko Sugimoto 


fujitsu.oasysgp 





软件 











sugimoto @sz.sel.fujitsu.co.jp 
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MIME 类 型 描 jë 扩 FE 联系 方式 与 参考 文献 
application/vnd. | 支持 富士 通 的 OASYS 展示 软件 bh2 Masumi Ogita 
fujitsu.oasysprs ogita 9 oa.tfl.fujitsu.co.jp 
application/vnd. | 支持 富士 施乐 的 EDMICS 2000 ddd Masanori Onda 
fujixerox.ddd 和 DocuFile Masanori.Onda@fujixerox.co.jp 
application/ 支持 富士 施乐 的 DocuWorks Desk xdw Yasuo Taguchi 
vnd.fujixerox. 及 DocuWorks Viewer 软件 yasuo.taguchi Q fujixerox.co.jp 
docuworks 
application/ 支持 富士 施乐 的 DocuWorks Desk xbd 同上 
vnd.fujixerox. 及 DocuWorks Viewer 软件 
docuworks. 
binder 
application/vnd. | 未 知 Jaan Pruulmann 
fut-misnet jaan@fut.ee 
application/vnd. | 让 GrafEq 的 用 户 通 过 Web 和 电 | gqf、gqs | http:Wwww.peda.com 
grafeq 子 邮件 交换 GrafEq 文档 
application/vnd. | Groove 是 为 小 群 组 交互 实现 了 虚 gac Todd Joseph 
groove-account | 拟 空间 的 对 等 实体 通信 系统 todd_joseph@ groove.net 
application/vnd. | 同上 gim 同上 
groove-identity- 
message 
application/vnd. | 同上 grv 同上 
groove-injector 
application/vnd. | 同上 gtm 同上 
groove-tool- 
message 
application/vnd. | 同上 tpl 同上 
groove-tool- 
template 
application/vnd. | 同上 vcg 同上 
groove-vcard 
application/ 支持 LessonPlayer 和 Presentation- les Randy Jones 


vnd.hhe.lesson- 


player 


application/vnd. 
hp-HPGL 





Editor 软件 





T 


HPGL 3 f/ 








Harcourt E-Learning 


randy jones C archipelago.com 


TheHP-GL/2 and HP RTL 


Referemce Guide, Addison Wesley, 


ISBN 0201310147 
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MIME 类 型 描 xh HO m 联系 方式 与 参考 文献 
application/vnd. | 支持 惠普 的 即时 传输 软件 hpi、 http://www.instant-delivery.com 
hp-hpid hpid 
application/vnd. | 支持 惠普 的 WebPrintSmart 软件 hps http://www.hp.com/go/Webprintsmart_ 
hp-hps mimetype_specs/ 
application/vnd. | PCL 打印 机 文件 pcl “PCL-PJL Technical Reference 
hp-PCL Manual Documentation Package”, 
application/vnd. HP Part No. 5012-0330 
hp-PCLXL 
application/vnd. | IP 系统 上 的 HTTPhone 异步 语音 Franck LeFevre 
httphone franck@klinfo.com 
application/ 用 于 对 Horizon, A Glimpse of x3d James Minnis 
vnd.hzn-3d- Tomorrow 公司 的 字谜 游戏 进行 james_minnis@glimpse-of-tomorrow.com 
crossword 加 密 
application/vnd. | PSF (Print Services Facility, Roger Buis 
ibm.afplinedata | 打印 服务 设施 )，ACIF (AFP buis@us.ibm.com 

Conversion and Indexing Facility, 
AFP 转换 与 索引 设施 ) 
application/vnd. | MiniPay 认证 和 支付 软件 mpy Amir Herzberg 
ibm.MiniPay amirh Q vnet.ibm.com 
application/vnd. | Mixed Object Document Content list3820, | Reinhard Hohensee 
ibm.modcap listafp, | rhohensee vnet.ibm.com 
afp, "MixedObject Document Content 
pseg3820 | Architecture Reference", IBM 
publication, SC31-6802 
application/ Informix Visionary vis Christopher Gales 
vnd.informix- christopher.gales 9 informix.com 
visionary 
application/ 支持 Intercon Associates FormNet Xpw, Thomas A. Gurak 
vnd.intercon. 软件 xpx assoc@intercon.roc.servtech.com 


formnet 


application/ 
vnd.intertrust. 
digibox 
application/vnd. 


intertrust.nncp 














支持 用 于 安全 电子 商务 和 数字 权 
限 管理 的 InterTrust 结构 














InterTrust Technologies 

460 Oakmead Parkway Sunnyvale, 
CA 94086 USA 

info@intertrust.com 


http://www.intertrust.com 
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application/vnd. 


intu.qbo 


application/vnd. 


intu.qfx 


application/vnd. 


is-xpr 


application/ 
vnd.japannet- 
directory- 
service 
application/ 
vnd.japannet- 
jpnstore-wakeup 
application/ 
vnd.japannet- 
payment- 
wakeup 
application/ 
vnd.japannet- 
registration 
application/ 
vnd.japannet- 
registration- 
wakeup 
application/ 
vnd.japannet- 
setstore-wakeup 
application/ 
vnd.japannet- 
verification 
application/ 
vnd.japannet- 
verification- 


wakeup 


application/vnd. 
koan 


application/vnd. 
lotus-1-2-3 





仅 用 于 QuickBooks 6.0 (加 拿 大 ) 





仅 用 于 Quicken 99 及 后 继 版 本 


搜 信 公司 的 Express 











电机 公司 的 JapanNet 安全 、 
认证 和 支付 软件 





在 SSEYO Koan Netscape Plugin 
这 样 的 辅助 程序 的 帮助 下 ， 在 因 
特 网 上 自动 重 放 Koan 音乐 文件 











Lotus-1-2- 和 Lotus Approach 





qbo 


qfx 


xpr 


skp. skd 
skm. skt 


123. wkl 
wk3, wk4 





Greg Scratchley 

greg scratchley G intuit.com 

Open Financial Exchange 规范 中 讨论 
的 文件 的 格式 ， 可 从 http://www.ofx. 
net 上 获得 


同上 


Satish Natarajan 


satish@infoseek.com 


Jun Yoshitake 


yositake G'iss.isl.melco.co.jp 


Peter Cole 
pcole ? sseyod.demon.co.uk 


Paul Wattenberger 


Paul Wattenberger otus.com 
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MIME 类 型 描 x J m 联系 方式 与 参考 文献 
application/vnd. | Lotus Approach apr、vew | 同上 
lotus-approach 
application/vnd. | Lotus Freelance prz, pre | 同上 
lotus-freelance 
application/vnd. | Lotus Notes nsf, ntf, | Michael Laramie 
lotus-notes ndl, ns4 | laramiem G btv.ibm.com 
ns3, ns2 
nsh, nsg 
application/vnd. | Lotus Organizer Or3 Paul Wattenberger 
lotus-organizer or2, org | Paul Wattenberger  lotus.com 
application/vnd. | Lotus ScreenCam scm fa] E 
lotus-screencam 
application/vnd. | Lotus WordPro lwp、 同上 
lotus-wordpro sam 
application/vnd. | Micro CADAM 公司 的 CAD 软件 mcd Tadashi Gotoh 
mcd tgotoh@cadamsystems.co.jp 
http://www.cadamsystems.co.jp 
application/vnd. | 支持 Media Station 公司 的 CDKey | cdkey | Henry Flurry 
mediastation. 远程 CDROM 通信 协议 henryf@mediastation.com 
cdkey 
application/ Meridian 数据 公司 的 Slingshot Eric Wedel 
vnd.meridian- Meridian Data, Inc. 5615 Scotts 
slingshot Valley Drive 
Scotts Valley, CA 95066 
ewedel meridian-data.com 
application/vnd. | FrameMaker 交换 格式 mif ftp://ftp.frame.com/pub/techsup/ 
mif techinfo/dos/mif4.zip 
Mike Wexler 
Adobe Systems, Inc333 W. San Carlos 
St. 
San Jose, CA 95110 USA 
mwexler( adobe.com 
application/ NetMail 3000 保存 格式 Minisoft, Inc 


vnd.minisoft- 
hp3000-save 











support ? minisoft.com 
ftp://ftp.3k.com/DOC/ms92-save- 
format.txt 
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MIME 类 型 描 R 扩 联系 方式 与 参考 文献 
application/ 支持 三 菱 电 机 公司 的 TrustWeb fX Manabu Tanaka 
vnd.mitsubishi. | 件 mtana G'iss.isl.melco.co.jp 
misty-guard. 
trustWeb 
application/vnd. | 支持 Mobius Managenect System 4X daf Celso Rodriguez 
Mobius.DAF f crodrigu ? mobius.com 
Greg Chrzczon 
gchrzczo ? mobius.com 

application/vnd. | 同上 dis 司 上 

Mobius.DIS 

application/vnd. | 同上 mbk 司 上 

Mobius.MBK 

application/vnd. | 同上 mqy 同上 

Mobius.MQY 

application/vnd. | 同上 msl 同上 

Mobius.MSL 

application/vnd. | 同上 plc ul 

Mobius.PLC 

application/vnd. | 同上 txf 司 上 

Mobius.TXF 

application/ FLEXsuite TM 是 无 线 报 文 协议 的 Mark Patton 

vnd.motorola. 集合 。 无 线 报 文 服务 提供 商 的 网 Motorola Personal Networks Group 


flexsuite 


application/ 
vnd.motorola. 


flexsuite.adsi 


application/ 
vnd.motorola. 


flexsuite.fis 


application/ 
vnd.motorola. 


flexsuite.gotap 





关 、 无 线 OS 和 应 用 程序 都 使 用 
此 类 型 





FLEXsuite TM 是 无 线 报 文 协 议 的 集 
合 。 这 种 类 型 为 各 种 数据 加 密 解 
决 方案 提供 了 一 种 无 线 友 好 格式 


FLEXsuite TIM 是 无 线 报 文 协议 的 

二 合 。 这 种 类 型 是 向 无 线 设备 高 
效 传输 结构 化 信息 (比如 新 闻 、 
股票 、 天 气 ) 的 无 线 友 好 格式 


FLEXsuite TIM 是 无 线 报 文 协议 的 
集合 

这 种 类 型 为 通过 空中 报 文 进行 无 
线 设 备 属 性 编程 提供 了 一 种 通用 
的 无 线 友 好 格式 












































fmp014@email.mot.com 








托 罗拉 获得 FLEXsuite TM 规 范 


同上 


在 适当 许可 协议 的 支持 下 ， 可 以 从 摩 
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MIME 类 型 do 述 扩 联系 方式 与 参考 文献 
application/ FLEXsuite TM 是 无 线 报 文 协议 的 同上 
vnd.motorola. 集合 。 这 种 类 型 为 加 密 密 钥 管理 
flexsuite.kmr 提供 了 一 种 无 线 友 好 格式 
application/ FLEXsuite TM 是 无 线 报 文 协议 的 同上 
vnd.motorola. 合 。 这 种 类 型 支持 在 通过 标记 
flexsuite.ttc 文本 压缩 进行 高 效 文本 传输 时 使 
用 的 一 种 无 线 友 好 格式 
application/ FLEXsuite TM 是 无 线 报 文 协议 的 同上 
vnd.motorola. 合 。 这 种 类 型 为 向 无 线 设备 传 
flexsuite.wem 输 因 特 网 电子 邮件 提供 了 无 线 友 
好 格式 
application/vnd. | 支持 Mozilla 的 因特网 应 用 程序 集 xul Dan Rosen2 
mozilla.xul+xml dr@netscape.com 
application/vnd. | 支持 微软 的 Art Gallery cil deansl ? microsoft.com 
ms-artgalry 
application/vnd. | ASF 是 一 种 多 媒体 文件 格式 ， 要 asf Eric Fleischman 
ms-asf 通过 网 络 以 流 的 形式 传输 其 内 ericf@microsoft.com 
容 以 支持 分 布 式 多 媒 应 用 程 http://www.microsoft.com/mind/0997/ 
FF. ASF 内 容 中 可 包含 任意 媒体 netshow/netshow.asp 
类 型 的 任意 组 合 s 视 
J. ÉQ Fr. URL, HTML 内 容 、 
MIDI、 二 维和 三 维 模式 、 脚 本 以 
及 各 种 类 型 的 对 象 ) 
application/vnd. | 微软 的 Excel 电子 表格 xls Sukvinder S. Gill 
ms-excel sukvg@microsoft.com 
application/vnd. | 微软 的 特有 格式 lrm Eric Ledoux 
ms-lrm ericle@microsoft.com 
application/vnd. | 微软 的 PowerPoint 演示 文稿 ppt Sukvinder S. Gill 
ms-powerpoint sukvg@microsoft.com 
application/vnd. | 微软 的 项 目 文件 mpp 同上 
ms-project 
application/vnd. | 标识 通常 只 能 由 MAPI 应 用 程序 同上 
ms-tnef 处 理 的 附件 。 这 种 类 型 是 Rich 
Text 本 和 Icon 信息 等 富 MAPI Jf 
性 的 封装 格式 ， 如 果 不 把 这 些 信 
息 封 装 起 来 ， 就 会 在 报 文 传输 中 
降级 
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MIME 类 型 描 R 扩 FE 联系 方式 与 参考 文献 
application/vnd. | 微软 的 Works 软件 同上 
ms-works 
application/vnd. | MSEQ 是 一 种 适用 于 无 线 设备 的 mseq Gwenael Le Bodic 
mseq 压缩 多 媒体 格式 Gwenael.le_bodic@alcatel.fr 
http://www.3gpp.org 
application/vnd. | 由 那些 实现 了 msign 协议 的 应 用 程 Malte Borcherding 
msign 序 使 用 ， 要 求 移动 设备 提供 签名 Malte.Borcherding @brokat.com 
application/vnd. | NIFF 音乐 文件 Cindy Grande 
music-niff 72723.1272@compuserve.com 
ftp://blackbox.cartah.washington.edu/ 
pub/NIFF/NIFF6A.TXT 
application/vnd. | RenaiScience 公司 设计 并 开发 的 mus Robert G. Adams 
musician MUSICIAN 乐谱 语言 / 编码 系统 gadams @renaiscience.com 
application/vnd. | 用 于 多 分 辩 率 图 片 信 息 的 动态 检 fpx Andy Mutz 
netfpx 索 ， 就 像 惠普 公司 的 Imaging for andy mutzG hp.com 
Internet 软件 一 样 
application/ 支持 RogueWave 购买 的 NobleNet nnd http://www.noblenet.com 
vnd.noblenet- Directory 软件 
directory 
application/vnd. | 支持 RogueWave 购买 的 NobleNet nns http://www.noblenet.com 
noblenet-sealer | Sealer 软件 
application/vnd. | 支持 RogueWave 购买 的 NobleNet nnw http://www.noblenet.com 
noblenet-Web Web 软件 
application/vnd. | 支持 Novadigm 的 RADIA 和 EDM edm Phil Burgard 
novadigm.EDM | 产品 pburgard 9 novadigm.com 
application/vnd. | 同上 edx 同上 
novadigm.EDX 
application/vnd. | 同上 ext 同上 
novadigm.EXT 
application/vnd. | X f$ Open Software Associates 的 ndc Steve Klos 
osa.netdeploy netDeploy 应 用 程序 部 署 软件 stevek@osa.com 
http://www.osa.com 
application/vnd. | PalmOS 系统 软件 和 应 用 程序 使 pre, Gavin Peacock 
palm 用 一 一 这 种 新 的 类 型 application/ pdb、 gpeacock ? palm.com 
vnd.palm， 取 代 了 老 的 类 型 applica- pqa、 
tion/x-pilot oprc 
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MIME 类 型 描 R 扩 联系 方式 与 参考 文献 
application/vnd. 宝洁 公司 特有 的 标准 报告 系统 str April Gandert 
pg.format TN152 
Procter & Gamble Way 
Cincinnati, Ohio 45202 
(513) 983-4249 
application/vnd. | 宝洁 公司 特有 的 标准 报告 系统 ei6 同上 
pg.osasli 
application/vnd. | 仅 在 赛 贝 斯 公司 的 PowerBuilder pbd Reed Shilts 
powerbuilder6 发 行 版 本 6、7 和 7.5 运行 时 环境 reed.shilts@sybase.com 
application/vnd. | 中 使 用 ， 包 括 不 安全 和 安全 两 种 
powerbuilder6-s | 版 
application/vnd. 
powerbuilder7 
application/vnd. 
powerbuilder7-s 
application/vnd. 
powerbuilder75 
application/vnd. 
powerbuilder75-s 
application/vnd. | Preview Systems 公司 的 ZipLock/ box, Roman Smolgovsky 
previewsystems. | VBox 产品 vbox romans Q previewsystems.com 
box http://www.previewsystems.com 
application/ 在 Capella 计算 机 的 PubliShare qps Oren Ben-Kiki 
vnd.publishare- | 运行 时 环境 中 使 用 publishare-delta-tree@capella.co.il 
delta-tree 
application/vnd. | Emultek 的 快速 封装 应 用 程序 zrp Itay Szekely 
rapid etay @emultek.co.il 
application/vnd. | 将 Sonera SmartTrust 产品 的 传输 Lauri Tarkkala 
s3sms 机 制 整 合 进 因特网 架构 Lauri.Tarkkala@sonera.com 
http://www.smarttrust.com 
application/vnd. | 支持 对 SeeMail 文件 的 传输 。 See Steven Webb 
seemail SeeMail 是 一 种 应 用 程序 ， 它 可 steve@wynde.com 
捕获 视频 和 音频 ， 并 通过 按 位 压 http://www.realmediainc.com 
缩 方 式 将 这 两 个 部 分 压缩 存档 到 
一 个 文件 
application/vnd. | Shana 电子 表格 数据 格式 ifm Guy Selzler 
shana.informed. Shana Corporation 
formdata gselzler@shana.com 
application/vnd. | Shana 电子 表格 数据 格式 itp 同上 
shana.informed. 
formtemp 
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MIME 类 型 描 È 扩 R 联系 方式 与 参考 文献 
application/vnd. | Shana 电子 表格 数据 格式 if, ifl | 同上 
shana.informed. 
interchange 
application/vnd. | Shana 电子 表格 数据 格式 ipk、 同上 
shana.informed. ipkg 
package 
application/vnd. | Street 技术 公司 特有 的 格式 Glenn Levitt 
street-stream Street Technologies 
streetdl @ix.netcom.com 
application/vnd. | Dateware 电子 公司 的 SVD 文件 Scott Becker 
Svd dataware@compumedia.com 
application/vnd. | 支持 SwiftView° Randy Prakken 
swiftview-ics tech@ndg.com 
http://www.ndg.com/svm.htm 
application/vnd. | 支持 Triscape Map 浏览 器 mxs Steven Simonoff 
triscape.mxs scs Qtriscape.com 
application/vnd. | True BASIC 文件 tra J. Scott Hepler 
trueapp scott truebasic.com 
application/vnd. | Bitstream 公司 特有 的 格式 Brad Chase 
truedoc brad chase@bitstream.com 
application/vnd. | UWI 的 UFDL 文件 ufdl, ufd, | Dave Manning 
ufdl frm dmanning Quwi.com 
http://www.uwi.com/ 
application/vnd. | Unwired Planet (现在 的 Openwave) iana-registrar ? uplanet.com 
uplanet.alert 公司 为 移动 设备 提供 的 微 浏览 器 http://www.openwave.com 
application/vnd. | UP 所 使 用 的 格式 
uplanet.alert- 
wbxml 
application/vnd. 


uplanet.bearer- 
choi-wbxml 
application/vnd. 
uplanet.bearer- 
choice 


application/vnd. 
uplanet.cacheop 
application/ 
vnd.uplanet. 
cacheop-wbxml 
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application/vnd. 
uplanet.channel 
application/vnd. 
uplanet.channel- 
wbxml 
application/vnd. 
uplanet.list 
application/vnd. 
uplanet.list- 
wbxml 
application/vnd. 
uplanet.listcmd 
application/vnd. 
uplanet.listcmd- 
wbxml 
application/vnd. 


uplanet.signal 


application/vnd. 


VCX 


application/vnd. 


vectorworks 


application/ 
vnd.vidsoft. 


vidconference 
application/vnd. 
visio 


application/ 
vnd.vividence. 


scriptfile 


application/vnd. 


wap.sic 


application/vnd. 


wap.slc 


application/vnd. 


wap.wbxml 





VirtualCatalog 


T 


VectorWorks 的 图 像 文 位 





VidConference 格式 


Visio 文件 


Vividence 文件 


WAP Service Indication 格式 


WAP Service Loading 格式。 与 
Service Loading 规范 相符 的 所 
有 内 容 都 可 以 在 http:/www. 
wapforum.org 上 找到 





无 线 设备 的 WAP WBXML 二 进 
制 XML 格式 





VCX 


mcd 


VSC 


vsd, vst, 


VSW, VSS 


vsf, vtd, 
vd 


Sic, 


wbxml 


slc, 


wbxml 


wbxml 





Taisuke Sugimoto 


sugimototi ? noanet.nttdata.co.jp 


Paul C. Pharr 
pharr 9 diehlgraphsoft.com 


Robert Hess 
hess Q vidsoft.de 


Troy Sandal 


troys ? visio.com 


Mark Risher 


markr  vividence.com 


WAP Forum Ltd 


http://www.wapforum.org 


同上 


同上 
“WAP BinaryXMLContent Format 
WBXML vevsion1.1” 
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MIME 类 型 描 R 扩 FE 联系 方式 与 参考 文献 

application/vnd. | 无 线 设备 的 WAP WML 格式 wmlc、 司 上 

wap.wmlc wbxml 

application/vnd. | WAP WMLScript 格式 wmlsc 司 上 

wap.wmlscriptc 

application/vnd. | WebTurbo 格式 wtb Yaser Rehem 

Webturbo Sapient Corporation 
yrehem C sapient.com 

application/vnd. | 支持 HP3000 格式 support? wrq.com 

wrq-hp3000- support? 3k.com 

labelled 

application/vnd. | X f$ Worldtalk 软件 stf Bill Wohler 

wt.stf wohlerQG worldtalk.com 

application/vnd. | CorelXARA f ff. 的 Xara X fE, xar David Matthewman 

xara 这 是 Xara 有 限 公 司 编写 (并 david@xara.com 

Corel 销售 的 ) 的 面向 对 象 的 矢量 http://www.xara.com 
图 像 包 

application/vnd. | UWI 的 XFDL 文件 xfdl, Dave Manning 

xfdl xfd, frm | dmanning(Q?uwi.com 
http://www.uwi.com 

application/vnd. | 支持 Yellow River CustomMenu 插 cmp yellowriversw @ yahoo.com 

yellowriver- 件 ， 这 个 插件 提供 了 自 定义 的 浏 

custom-menu 览 器 下 拉 菜 单 

application/ 在 MIME 中 定义 了 Whois++ 协议 RFC 2957 

whoispp-query | 的 查询 方式 

application/ 在 MIME 中 定义 了 Whois++ 协议 RFC 2958 

whoispp- 的 响应 方式 

response 

application/wita | Wang ( 王 安 ) 信息 传输 结构 文档 号 715-0050A Wang Laboratories 
( 王 安 实验 室 ) 
campbell@redsox.bsw.com 

application/ WordPerfect 文档 

wordperfect5.1 

application/ 承载 了 所 有 没有 注册 IANA 映射 RFC 1494 

x400-bp BJ X.400 主体 部 分 

application/ 老 版 的 二 进 制 CPIO 归档 格式 bcpio 

X-bcpio 
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MIME 类 型 描 B J FE 联系 方式 与 参考 文献 
application/ 允许 在 Web 页面 内 整合 CD-ROM vcd http://www.cdlink.com 
x-cdlink 媒体 
application/ 来 自 Apache mime.types pgn 
X-chess-pgm 
application/ Unix 压缩 的 二 进 制 数据 z 
x-compress 
application/ CPIO 归档 文件 cpio 
X-cpio 
application/ CSH 脚本 csh 
x-csh 
application/ Macromedia 的 Director 档案 dcr、dir、 
X-director dxr 
application/ TeX DVI 文件 dvi 
x-dvi 
application/ 来 自 Apache 的 mime.types spl 
x-futuresplash 
application/ GNU 的 tar 归档 文件 gtar 
x-gtar 
application/ GZIP 压缩 数据 gz 
x-gzip 
application/ 来 自 Apache 的 mime.types hdf 
x-hdf 
application/ JavaScript 文件 js 
x-Javascript 
application/ 在 SSEYO Koan Netscape Plugin 辅 | skp, skd 
x-koan 助 应 用 程序 的 帮助 下 ， 支 持 在 因 | skt. skm 

特 网 上 自动 重 放 Koan 音乐 文件 

application/ LaTeX 文件 latex 
x-latex 
application/ NETCDF 文件 nc. cdf 
x-netcdf 
application/x-sh | SH 脚本 sh 
application/ SHAR 归档 文件 shar 
x-shar 
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MIME 类 型 描 XR 扩 FE 联系 方式 与 参考 文献 
application/ Macromedia 的 Flash 文件 swf 
x-shockware- 
flash 
application/ Stufflt 归档 文件 sit 
x-stuffit 
application/ Unix SysV R4 CPIO 归档 文件 sv4cpio 
x-sv4cpio 
application/ Unix SysV R4 CPIO 4$ CRC 校 验 | sv4crc 
x-sv4crc 的 归档 文件 
application/x-tar | TAR 归档 文件 tar 
application/x-tcl | TCL 脚本 tcl 
application/ TeX 文件 tex 
X-tex 
application/ TeX 信息 文件 texinfo, 
x-texinfo texi 
application/ TROFF 文件 t, tr, 
x-troff roff 
application/ TROFF Unix 帮助 手册 man 





x-troff-man 




















application/ TROFF-4me 文件 me 

x-troff-me 

application/ TROFF-«ms 文件 ms 556 
x-troff-ms 

application/ 扩展 tar 交互 格式 Ustar 参见 IEEE 1003.1(1990) 规范 

x-ustar 

application/ WAIS 源 文件 结构 Src 


x-Wais-source 








application/xml | 可 扩展 标记 语言 格式 文件 (如果 | xml. dtd | RFC 2376 
希望 浏览 器 等 浏览 工具 将 文件 作 
为 纯 文本 处 理 ， 就 使 用 text/xml) 




















application/zip | PKWARE zip 归档 文件 Zip 
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D.4.2 audio/* 
ak D-4 总 结 了 音频 内 容 类 型 。 























表 D-4 “Audio”MIME 类 型 
MIME 类 型 d o B HO E 联系 方式 与 参考 文献 
audio/32kadpcm 32 kHz ADPCM 音频 编码 RFC 2421 
audio/basic 8kHz 单 声 道 8 位 ISDN u-lawPCM | au, snd RFC 1341 
编码 的 音频 
audio/G.772.1 G.722.1 将 50Hz-7kHz 的 音频 信号 压 RFC 3047 
缩 为 24kbit/s 或 32kbi/s, n] Hl T iE 
音 、 音 乐 和 其 他 类 型 的 音频 
audio/L16 Audio/L16 基于 RFC 1890 中 描述 的 RFC 2586 
L16, L16 表示 以 16 位 带 符 号 表示 
法 表示 的 非 压缩 音频 数据 
audio/MP4A-LATM | MPEG-4 音频 RFC 3016 
audio/midi MIDI 音乐 文件 mid. midi. 
kar 
audio/mpeg MPEG 编码 音频 文件 mpga, mp2, | RFC 3003 
mp3 
audio/parityfec RTP 音频 的 奇偶 前 向 纠 错 码 RFC 3009 
audio/prs.sid 科 摩 多 公司 的 64 SID 音频 文件 sid, psid http://www.geocities.com/ 


audio/telephoneev- 


ent 
audio/tone 


audio/vnd.cns.anpl 


audio/vnd.cns.infl 





T 


逻辑 电话 事 们 





电话 声音 模式 


支持 Comverse 网 络 系统 公司 Access 
NP 网 络 服务 平台 上 的 声音 和 统一 报 
文 应 用 程序 特性 











支持 Comverse 网 络 系统 公司 TRILOGUE 
Infinity 网 络 服务 平台 上 的 声音 和 统 
一 报 文 应 用 程序 特性 








SiliconValley/Lakes/5147/ 
sidplay/docs.html#filefor- 


mats 


RFC 2833 


RFC 2833 


Ann McLaughlin 
Comverse 网 络 系 统 
amclaughlin@comversens. 


com 


同上 
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MIME 类 型 描 X Jo R 联系 方式 与 参考 文献 
audio/vnd.digitalwi- | Digital Winds 音乐 是 封装 在 很 小 的 | eol Armands Strazds 
nds 封包 (<3K) 内 的 永 不 终结 、 可 再 生 armands.strazds@ 
的 交互 式 MIDI 音 乐 medienhaus-bremen.de 
audio/vnd.everad.plj | EverAD 音频 编码 的 特有 格式 plj Tomer Weisberg 
tomer  everad.com 
audio/vnd.lucent.voi- | 包含 朗讯 科技 的 Intuity TM AUDIX^ | lvp Frederick Block 
ce Multimedia Messaging System 和 rickblock € lucent.com 
Lucent Voice Player 在 内 的 声音 报 文 http://www.lucent.com/ 
lvp/ 
audio/vnd.nortel.vbk | 北 电网 络 公 司 的 声音 块 音频 编码 特 | vbk Glenn Parsons 
有 的 格式 Glenn.Parsons@ 
NortelNetworks.com 
audio/vnd.nuera.ece- | 纽 亚 通信 的 音频 和 话音 编码 所 特有 的 | ecelp4800 Michael Fox 
lp4800 格式 ， 用 于 纽 亚 的 VoIP 网 关 、 终 端 、 mfox@nuera.com 
应 用 程序 服务 器 ， 还 作为 各 种 主机 平 
EF OS 的 媒体 服务 使 用 
audio/vnd.nuera.ece- | 同上 ecelp7470 本 上 
1p7470 
audio/vnd.nuera.ece- | 同上 ecelp9600 司 上 
1p9600 
audio/vnd.octel.sbc 朗讯 科技 的 Sierra TM, Overture TM 和 Jeff Bouis 
IMA ™ 平台 上 的 声音 报 文 使 用 的 平 jbouis @lucent.com 
的 值 为 18kbps 的 可 变速 率 编码 
audio/vnd.qcelp 高 通 的 音频 编码 qcp Andy Dejaco 


audio/vnd.rhetorex. 
32kadpcm 


audio/vnd.vmx.cvsd 





在 朗讯 科技 的 CallPerformer TM, Unified 
Messenger TM 这 样 的 声音 报 文 产 品 和 
其 他 产品 中 使 用 的 32kbps Rhetorex TM 
ADPCM 音频 编码 














在 包含 朗讯 科技 的 Overture200 TM. 
Overture 300 TM 和 VMX 300 TM 产品 
线 在 内 的 声音 报 文 产品 中 使 用 的 音 
频 编 码 




















adejaco@qualcomm.com 


Jeff Bouis 


jbouis@lucent.com 
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audio/x-aiff 


audio/x-pn-realaudio | Real 


格式 

















audio/x-pn-realaudio- | 3 É 





plugin 


audio/x-realaudio Real 


格式 


audio/x-wav 





Networks) 公司 的 RealAudio 元 文件 


Networks ) 


WAV 音频 文件 


AIFF 音频 文件 格式 





Networks (前 身 是 Progressive 





Apache 的 mime.types 


Networks (前 身 是 Progressive 
公司 的 RealAudio 音频 





D.4.3 chemical/* 
K D-5 中 很 多 信息 都 是 从 Chemical MIME 主页 上 获得 的 (httpz//www.ch.ic.ac.uk/ 


chemime/) 。 


表 D-5 


“Chemical”MIME 类 型 





ram, rm 


rpm 


ra 


Wav 


aif, aiff, aifc 














MIME 类 型 描 j 扩展 联系 方式 和 参考 文献 
chemical/x-alchemy Alchemy 格式 alc http://www.camsoft.com 
chemical/x-cache-csf csf 
chemical/x-cactvs-binary | CACTVS 二 进 制 格式 cbin http://cactvs.cit.nih. gov 
chemical/x-cactvs-ascii CACTVS ASCII 格式 cascii http://cactvs.cit.nih.gov 
chemical/x-cactvs-table CACTVS 表格 式 ctab http://cactvs.cit.nih.gov 
chemical/x-cdx ChemDraw eXchange 文件 cdx http://www.camsoft.com 
chemical/x-cerius MSI Cerius II 格式 cer http://www.msi.com 
chemical/x-chemdraw ChemDraw 文件 chm http://www.camsoft.com 
chemical/x-cif Crystallographic Interchange | cif http://www.bernstein-plus- 

Format sons.com/software/rasmol/ 
http://ndbserver.rutgers.edu/ 
NDB/mmcif/examples/index. 
html 
chemical/x-mmcif 高 分 子 CIF mcif 同上 
chemical/x-chem3d Chem3D 格式 c3d http://www.camsoft.com 
chemical/x-cmdf CrystalMaker 数据 格式 cmdf http://www.crystalmaker.co.uk 
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MIME 类 型 描 xh 扩展 联系 方式 和 参考 文献 

chemical/x-compass Takahashi 的 Compass 程序 cpa 

chemical/x-crossfire Crossfire 文件 bsd 

chemical/x-cml 化 学 标记 语言 cml http://www.xml-cml.org 

chemical/x-csml 化 学 风格 标记 语言 csml, csm | http://www.mdli.com 

chemical/x-ctx Gasteiger 小 组 的 CTX 文件 格式 | ctx 

chemical/x-cxf cxf 

chemical/x-daylight-smiles | Smiles 格式 smi http://www.daylight.com/ 
dayhtml/smiles/index.html 

chemical/x-embl-dl- EMBL PRHA emb http://mercury.ebi.ac.uk 

nucleotide 

chemical/x-galactic-spc 光谱 和 色谱 数据 的 SPC 格式 | spe http://www.galactic.com/ealactic/ 
Data/spcvue.htm 

chemical/x-gamess-input GAMESS 输入 格式 inp, gam | http://www.msg.ameslab.gov/ 
GAMESS/Graphics/MacMolPlt. 
shtml 

chemical/x-gaussian-input | Gaussian Input 格式 gau http://www.mdli.com 

chemical/x-gaussian- Gaussian Checkpoint 格式 fch, fchk | http://products.camsoft.com 

checkpoint 

chemical/x-gaussian-cube | Gaussian Cube (Wavefunction | cub http://www.mdli.com 

波 函 数 ) 格式 

chemical/x-gcg8-sequence gcg 

chemical/x-genbank ToGenBank 格式 gen 

chemical/x-isostar 分 子 间 相互 作用 的 IsoStar Library | istr, ist | httpz//www.ccdc.cam.ac.uk 

chemical/x-jcamp-dx JCAMP Spectroscopic Data | jdx, dx http://www.mdli.com 

Exchange 格式 

chemical/x-jjc-review- | Re View3 Orbital Contour 文件 | rv3 http://www.brunel.ac.uk/depts/ 

surface chem/ch241s/re view/rv3.htm 

chemical/x-jjc-review-xyz | Re View3Animation 文件 xyb http://www.brunel.ac.uk/depts/ 
chem/ch241s/re  view/rv3.htm 

chemical/x-jjc-review-vib | Re View3 Vibration (振动 ) | rv2, vib | http://www.brunel.ac.uk/depts/ 


文件 








chem/ch241s/re view/rv3.htm 
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MIME 类 型 描 述 扩展 联系 方式 和 参考 文献 
chemical/x-kinemage Kinetic (Protein Structure, 蛋 | kin http://www.faseb.org/protein/ 
HERR) 图 片 kinemages/MageSoftware.html 
chemical/x-macmolecule 高 分 子 文 件 格式 mcm 
chemical/x-macromodel- | 宏 模 型 分 子 力 学 mmd 、 http://www.columbia.edu/cu/ 
input mmod chemistry/ 
chemical/x-mdl-molfile MDL Molfile mol http://www.mdli.com 
chemical/x-mdl-rdfile Reaction (反应 ) 数据 文件 rd http://www.mdli.com 
chemical/x-mdl-rxnfile MDL Reaction 格式 rxn http://www.mdli.com 
chemical/x-mdl-sdfile MDL Structure 数据 文件 sd http://www.mdli.com 
chemical/x-mdl-tgf MDL Transportable Graphics | tgf http://www.mdli.com 
格式 
chemical/x-mif mif 
chemical/x-mol2 SYBYL 分 子 的 便携 式 表 示 形 式 | mol2 http://www.tripos.com 
chemical/x-molconn-Z Molconn-Z 格式 b http://www.eslc.vabiotech.com/ 
molconn/molconnz.html 
chemical/x-mopac-input MOPAC Input 格式 mop http://www.mdli.com 
chemical/x-mopac-graph MOPAC Graph 格式 gpt http://products.camsoft.com 
chemical/x-ncbi-asn1 asn ( 老 格 
x) 
chemical/x-ncbi-asn1-binary val 
chemical/x-pdb 蛋白 质数 据 库 pdb pdb http://www.mdli.com 
chemical/x-swissprot SWISS-PROT 蛋白质 序列 数 | sw http://www.expasy.ch/spdbv/ 
Ta E text/download.htm 
chemical/x-vamas-iso14976 | 材料 及 标准 的 凡尔赛 协定 vms http://www.acolyte.co.uk/JISO/ 
chemical/x-vmd 视觉 分 子 动力 学 软件 vmd http://www.ks.uiuc.edu/ 
Research/vmd/ 
chemical/x-xtel Xtelplot 文件 格式 xtel http://www.recipnet.indiana.edu/ 
graphics/xtelplot/xtelplot.htm 
chemical/x-xyz Co-ordinate Animation 格式 xyz http://www.mdli.com 
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K D-6 总 结 了 电子 邮件 和 HTTP 经 常 交 换 的 一 些 图 片 类 型 。 




























































































表 D-6 “Image”MIME 类 型 
MIME 类 型 描 j J R 联系 方式 和 参考 文献 
image/bmp Windows 的 BMP 图 片 格式 bmp 
image/cgm CGM (Computer Graphics Alan Francis 
Metafile， 计 算 机 图 形 元 文件 ) A.H.Francis@open.ac.uk 
是 便携 式 存储 和 传输 二 维 插图 参见 ISO 8632:1992, IS 8632: 
的 国际 标准 1992 Amendmentl (1994) 和 
IS 8632:1992 Amendment2 
(1995) 
image/g3fax G3 RAPHI RFC 1494 
image/gif Compuserve GIF 图 片 gif RFC 1341 
image/ief ief RFC 1314 
image/jpeg JPEG 图 片 jpeg. jpg. | JPEG 草案 标准 ISO 10918-1 
jpe. jfif CD 
image/naplps NAPLPS (北美 表示 层 协议 语 ANSI X3.110-1983 CSA 
法 ，North American Presentation T500-1983 
Layer Protocol Syntax) 图 片 
image/png PNG (便携 式 网 络 图 像 ) 图 片 | png 因 特 网 草 案 draft-boutell-png- 
spec-04.txt, “Png Specification 
Version1.0” 
image/prs.btif 美国 国家 银行 为 支票 及 其 他 应 | btif、btf Arthur Rubin 
用 程序 的 BTIF 图 片 视 图 所 使 arthurr@crt.com 
用 的 格式 
image/prs.pti PTI 编码 图 片 pti Juern Laun 
juern.laun @ gmx.de 
http://server.hvzgymn.wn.sch- 
ule-bw.de/pti/ 
image/tiff TIFF 图 片 tiff, tif RFC 2302 
image/vnd.cns.inf2 支持 Comverse 网 络 系统 公司 Ann McLaughlin 
TRILOGUE Infinity 网 络 JR Comverse 网 络 系统 公司 
务 器 平台 上 可 用 的 应 用 程 语 amclaughlin@comversens. 
特性 com 
image/vnd.dxf DXF 矢量 CAD 文件 dxf 
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MIME 类 型 描 述 扩 联系 方式 和 参考 文献 
image/vnd.fastbidsheet FastBid Sheet 中 包含 一 个 用 | fbs Scott Becker 
来 表示 工程 或 建筑 图 纸 的 光 scottb@bxwa.com 
栅 或 矢量 图 片 
image/vnd.fpx 柯达 的 FlashPix 图 片 fpx Chris Wing 
format_change_request@kod- 
ak.com 
http://www.kodak.com 
image/vnd.fst FAST 搜索 及 传输 的 图 片 格式 | fst Arild Fuldseth 
Arild.Fuldseth @fast.no 
image/vnd.fujixerox.edmi- | 富士 施乐 的 EDMICS MMR | mmr Masanori Onda 
cs-mmr 到 片 格式 Masanori.Onda@fujixerox. 
co.jp 
image/vnd.fujixerox. | 富士 施乐 的 EDMICS RLC 图 | rlc 同上 
edmics-rlc 片 格式 
image/vnd.mix MIX 文件 包含 了 流 中 用 来 表 Saveen Reddy2 
示 图 片 及 相关 信息 的 二 进 制 saveenr@microsoft.com 
数据 。 由 微软 的 PhotDraw 和 
Picturelt 软件 使 用 
image/vnd.net-fpx 柯达 的 FlashPix 图 片 Chris Wing 
format_change_request@kod- 
ak.com 
http://www.kodak.com 
image/vnd.wap.wbmp 3€ Bl Apache 的 mime.types wbmp 
image/vnd.xiff Pagis 软件 所 用 的 扩展 图 片 格式 | xif Steve Martin 
smartin ? xis.xerox.com 
image/x-cmu-raster 3€ Bl Apache 的 mime.types ras 
image/x-portable-anymap | PBM 通用 图 片 pnm Jeff Poskanzer 
http://www.acme.com/softwa- 
re/pbmplus/ 
image/x-portable-bitmap PBM 位 图 图 片 pbm 司 上 
image/x-portable-graymap | PBM 灰 度 图 片 pgm 司 上 
image/x-portable-pixmap | PBM 彩色 图 片 ppm 司 上 
image/x-rgb 硅 图 的 RGB 图 片 rgb 
image/x-xbitmap X-Window System 的 位 图 图 片 | xbm 
image/x-xpixmap X-Window System 的 彩色 图 片 | xpm 
image/x-xwindowdump X-Window System 的 屏幕 截取 | xwd 











图 片 
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D.4.5 message/* 


报 文 是 用 来 (通过 电子 邮件 、HTTP 或 其 他 传输 协议 ) 交互 数据 对 象 的 复合 类 型 。 
X D-7 描述 了 常见 的 MIME 报 文 类 型 。 


表 D-7 “Message”MIME 类 型 

































































MIME 类 型 描 述 J 展 | 联系 方式 及 参考 文献 
message/delivery-status 
message/disposition-notification RFC 2298 
message/external-body RFC 1341 
message/http RFC 2616 
message/news 定义 了 一 种 通过 电子 邮件 传 RFC 1036 
输 可 读 新 闻 文 章 的 方式 
新 闻 首 部 的 语义 超出 了 RFC 
822 定义 的 范围 ， 所 以 仅 使 用 
message/rfc822 是 不 够 的 
message/partial 允许 对 那些 太 大 ， 无 法 直接 通 RFC 1341 
过 电子 邮件 传输 的 主体 部 分 进 
行 分 段 传输 
message/rfc822 完整 的 电子 邮件 报 文 RFC 1341 
message/s-http ZÆ HTTP fk X, Æ Xf SSL RFC 2660 
E HTTP 的 替代 方式 


D.4.6 model/* 


MIME 类 型 model 是 IETF 注册 的 扩展 类 型 。 它 表示 的 是 物理 世界 的 数学 模型 ， 用 
于 计算 机 辅助 设计 和 三 维 图 像 。 表 D-8 描述 了 部 分 model 格式 。 


表 D-8 “Model”MIME 类 型 


MIME 类 型 描 xh J R 联系 方式 及 参考 文献 
model/iges IGES (Initial Graphics Exchange | igs, iges RFC 2077 
Specification, 49) 4 [e| ff& ^c H Jl 
JE) 定义 了 一 种 中 立 数 据 格式 ， 
通过 它 可 以 在 CAD 系统 之 间 进 行 
信息 的 数字 化 交换 





model/mesh msh. mesh. | RFC 2077 


silo 
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MIME 类 型 do x 扩 FE 联系 方式 及 参考 文献 
model/vnd.dwf DWF CAD 文件 dwf Jason Pratt 
jason.pratt ? autodesk.com 
model/vnd.flatland.3dml | 支持 Flatland 产品 的 3DML 模型 3dml. 3dm | Michael Powers 
pow Gflatland.com 
http://www.flatland.com 
model/vnd.gdl GDL (Geometric Description gdl, gsm, | Attila Babits 
model/vnd.gs-gdl Language， 几 何 描述 语言 ) 是 win, dor, | ababits@graphisoft.hu 


model/vnd.gtw 


model/vnd.mts 


model/vnd.parasolid. 


transmit.binary 


model/vnd.parasolid. 


transmit.text 


model/vnd.vtu 


model/vrml 





Graphisoft 为 ArchiCAD 设计 的 
参数 化 对 象 定义 语言 
Gen-Trix 模型 


Virtue 的 MTS 模型 格式 


二 进 制 Parasolid 建 模 文 件 








文本 Parasolid 建 模 文件 


T 


Virtue 的 VTU 模型 格式 


T 


虚拟 现实 标记 语言 格式 的 文件 





D.4.7 multipart/* 
MIME 类 型 multipart 是 包含 有 其 他 对 象 的 组 合 对 象 。 子 类 型 描述 了 多 部 分 封装 的 实 
现 ， 以 及 如 何 处 理 组 件 。 表 D-9 总 结 了 Multipart 媒体 类 型 。 





mts 


vtu 


wrl, vrml 


http://www.graphisoft. 


com 


Yutaka Ozaki 


yutaka, ozaki @ gen.co.jp 


Boris Rabinovitch 


boris ? virtue3d.com 


http://www.ugsolutions. 


com/products/parasolid/ 


http://www.ugsolutions. 


com/products/parasolid/ 


Boris Rabinovitch 


boris ? virtue3d.com 





RFC 2077 







































































表 D-9 “Multipart”MIME 类 型 
MIME 类 型 描 述 扩 展 联系 方式 及 参考 文献 
multipart/ 内 容 包括 一 个 可 替换 表达 方式 列表 ， 每 种 RFC 1341 
alternative 方式 都 有 自己 的 Content-Type, 客户 
端 可 以 选择 其 支持 得 最 好 的 组 件 
multipart/ 苹果 Macintosh 文件 包含 了 “资源 分 支 ” http://www.isi.edu/in-notes/ 
appledouble 和 其 他 用 来 描述 实际 文件 内 容 的 桌面 数 iana/assignments/media- 
据 。 这 个 由 多 部 分 组 成 的 内 容 在 一 个 部 分 types/multipart/appledouble 
中 发 送 Apple 元 数据 ， 并 在 另 一 个 部 分 中 
5906 | WD 


( 续 ) 





























































































































MIME 类 型 描 述 扩 联系 方式 及 参考 文献 
multipart/ HTTP 报 文中 包含 了 多 个 范围 的 内 容 时 ， RFC 2068 
byteranges 要 放 在 multipart/byteranges 对 象 中 传输 。 
个 媒体 类 型 包含 由 MIME 边界 分 隔 的 
两 个 或 多 个 部 分 ， 每 个 部 分 都 有 自己 的 
Content -Type 和 content -Range 字段 
multipart/ 包含 一 组 以 易 读 形式 表示 的 个 人 电子 邮件 RFC 1341 
digest Tix 
multipart/ 用 两 个 部 分 来 支持 密码 加 密 的 内 容 。 第 一 RFC 1847 
encrypted 部 分 包含 了 解密 第 二 主体 部 分 的 数据 所 必 
须 的 控制 信息 ， 它 是 根据 协议 参数 值 标 记 
的 。 第 二 部 分 包含 了 application/octet-stream 
类 型 的 加 密 数 据 
multipart/form- | 根据 用 户 填 表 的 结果 将 一 组 值 封 装 起 来 RFC 2388 
data 
multipart/ 从 任意 描述 性 元 数据 中 将 用 户 数据 分 离 出 来 http://www.isi.edu/in-notes/ 
header-set iana/assignments/media- 
types/multipart/header-set 
multipart/mixed 一 组 对 象 RFC 1341 
multipart/parallel | 语法 与 multipart/mixed 相同 ， 但 在 能 够 使 RFC 1341 
用 它 的 系统 中 ， 要 同时 提供 所 有 的 部 分 
multipart/related | 供 包含 了 几 个 相互 关联 的 主体 部 分 的 复 RFC 2387 
合 对 象 使 用 。 主 体 各 部 分 之 间 的 关系 将 
其 与 其 他 对 象 类 型 区 分 开 来 。 这 些 关系 
通常 是 由 引用 其 他 组 件 的 对 象 组 件 内 部 
链接 表示 的 
multipart/ 为 各 种 类 型 的 电子 邮件 报告 定义 了 一 种 通 RFC 1892 
report 用 的 容器 类 型 
multipart/ 使 用 两 个 部 分 来 支持 经 过 密码 签名 的 内 RFC 1847 
signed 容 。 第 一 部 分 是 包含 了 其 MIME 首部 的 
内 容 ;， 第 二 部 分 包含 了 验证 数字 签名 所 需 
的 信息 
multipart/ 提供 了 一 种 机 制 ， 可 将 声音 E m RFC 2421 和 RFC 2423 


voice-message 





个 标记 为 VPIM v2 兼容 的 容器 中 
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D.4.8 


text/* 


Text 媒体 类 型 包含 了 字符 和 淮 在 的 格式 化 信息 。 表 D-10 总 结 了 Text MIME 类 型 。 































































































表 D-10 “Text”MIME 类 型 
MIME 类 型 Jd 述 y E 联系 方式 和 参考 文献 
text/calendar 支持 iCalendar 日 历 和 日 程 标准 RFC 2445 
text/css 层级 样式 表 CSS RFC 2318 
text/directory 装载 LDAP 这 样 的 目录 数据 库 中 的 记 RFC 2425 
录 数 据 
text/enriched 简单 的 格式 化 文本 ， 支 持 字 体 、 颜 色 和 RFC 1896 
间距 方式 。 使 用 类 SGML 的 标记 来 开 
始 或 结束 格式 化 工作 
text/html HTML 文件 html. htm | RFC 2854 
text/parityfec RTP 流 中 文本 流 的 前 向 纠 错 码 RFC 3009 
text/plain 普通 的 文本 asc, txt 
text/prs.lines.tag 支持 用 于 电子 邮件 注册 的 标记 表格 tag, dsc John Lines 
john Gpaladin.demon.co.uk 
http://www.paladin.demon. 
co.uk/tag-types/ 
text/rfc822-headers | 就 像 邮 件 发 送 失 败 报告 那样 ， 用 来 绑 定 RFC 1892 
一 组 电子 邮件 首部 
text/richtext 富 文本 的 较 老 形式 。 参 见 text/enriched TtX RFC 1341 
text/rtf RTF (Rich Text Format， 富 文本 格式 | rtf 
是 一 种 在 应 用 程序 之 间 的 传输 所 使 用 的 ， 
对 格式 化 文本 和 图 片 的 编码 方式 。 这 种 
格式 得 到 了 MS-DOS、Windows、OS/2 
和 Macintosh 平台 上 各 种 字 处 理 程 序 的 
广泛 支持 
text/sgml SGML 标记 文件 sgml, sgm | RFC 1874 
text/t140 支持 同步 RTP 多 媒体 中 使 用 的 标准 RFC 2793 
T.140 文本 
text/tab-separated- | TSV 是 在 数据 库 和 电子 表格 以 及 文字 | tsv http://www.isi.edu/in- 
values 处 理 软 件 之 间 进 行 数据 交换 的 通用 方 notes/iana/assignments/ 
法 。 它 由 很 多 行 构 成 ， 每 行 都 有 一 些 media-types/text/tab- 
tab 字符 分 隔 的 字段 Separated-values 
text/uri-list URN 解析 程序 和 所 有 需要 进行 大 量 | uris, uri RFC 2483 








URI 列表 通信 的 其 他 应 用 程序 使 用 的 简 
单 的 、 经 过 注释 的 URL fü URN 列表 
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( 续 ) 



















































































MIME 类 型 描 j yo oE 联系 方式 和 参考 文献 
text/vnd.abc ABC 文件 是 乐谱 的 可 读 格式 abc http://www.gre.ac.uk/-c. 
walshaw/abc/ 
http://homel.swipnet. 
se/-w-11382/abcbnf.htm 
text/vnd.curl 提供 了 一 组 由 CURL 运行 时 插件 解释 | curl Tim Hodge 
的 内 容 定 义 语言 thodge@curl.com 
text/vnd. Dream Seeker 客户 端 应 用 程序 会 访问 一 | dms Dan Bradley 
DMClientScript 些 非 HTTP 站 点 (比如 BYOND、IRC dan ? dantom.com 
或 telnet), CommonDM Client Script http://www.byond.com/ 
文件 被 当 作 指向 这 些 站 点 的 超 链接 使 用 code/ref/ 
text/vnd.fly Fly 是 个 文本 预 处 理 器 ， 它 会 用 简单 的 | fly John-Mark Gurney 
语法 来 创建 数据 库 和 Web 页 面 之 间 的 jmg @flyidea.com 
接口 http://www .flyidea.com 
text/vnd.fmi. 用 于 SUVDAMA 和 UVRAPPF 项 目 fix http://www.ozone.fmi.fi/ 
flexstor SUVDAMA/ 
http://www.ozone.fmi.fi/ 
UVRAPPF/ 
text/vnd.in3d.3dml 用 于 In3D 播放 器 3dml, 3dm | Michael Powers 
powers@insideout.net 
text/vnd.in3d.spot 用 于 In3D 播放 器 spot. spo 同上 
text/vnd.IPTC. IPTC 国际 新 闻 电 信 委 员 会 指定 的 xml David Allen 
NewsML NewsML 格式 m_director_iptc@dial. 
pipex.com 
http://www.iptc.org 
text/vnd.IPTC.NITF | IPTC 指定 的 NITF 格式 xml 同上 


text/vnd.latex-z 


text/vnd.motorola. 


reflex 





支持 包含 Z 表 示 法 的 LaTeX 文档 。Z 
表示 法 ( 读 作 “zed”) 是 基于 Zermelo- 
Fraenkel 集合 论 和 一 阶 谓词 逻 辑 的 ， 有 
助 于 描述 计算 机 系统 


提供 了 一 种 从 ReFLEX ™ 无 线 设 备 提 
交 简 单 文 本 的 通用 的 方式 














http://www.nitf.org 


http://www.comlab.ox.ac. 


uk/archive/z/ 


Mark Patton 
fmp014@email.mot.com 
有 许可 协议 的 情况 下 ， 
可 以 从 摩托 罗拉 得 到 
(Enabling Protocol specifica- 
tion) 的 FLEXsuite TM 部 分 
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MIME 类 型 描 述 J FE 联系 方式 和 参考 文献 
text/vnd.ms- 这 种 类 型 由 微软 应 用 程序 MStore.exe | mpf Jan Nelson 
mediapackage fll 7 storDB.exe 处 理 jann ? microsoft.com 
text/vnd.wap.si SI (Service Indication, l| 4$ J& rk fF) | si. xml WAP Forum Ltd 

对 象 中 包含 了 用 于 描述 事件 的 报 文 和 用 http://www.wapforum. 
于 描述 从 何 处 装载 相应 服务 的 URI org 
text/vnd.wap.sl SL (Service Loading， 服 务 装 载 ) 内 容 | sl, xml 同上 
类 型 提供 了 一 种 向 移动 客户 端的 用 户 代 
理 传送 URI 的 手段 。 客 户 端 自身 会 E 
动 地 装载 URI 所 指向 的 内 容 ， 在 适当 
的 时 候 且 没有 用 户 干预 的 情况 下 ， 在 指 
定 的 用 户 代 理 上 执行 它 
text/vnd.wap.wml WML (Wireless Markup Language, 无 | wml 同上 
线 标记 语言 ) 是 一 种 基于 XML 的 标记 
语言 ,定义 了 包含 移动 电话 和 寻呼机 在 
内 的 穿 带 设备 的 内 容 和 用 户 接口 
text/vnd.wap. WMLSCcript 是 一 种 用 于 无 线 设 备 的 | wmls 同上 
wmlscript JavaScript 的 拓展 
text/x-setext 3€ Bl Apache 的 mime.types etx 
text/xml Extensible Markup 语言 格式 文件 (如 | xml RFC 2376 
果 下 载 时 希望 浏览 器 将 文件 保存 下 来 就 
使 用 application/xml) 


























































































































D.4.9 video/* 
K D-11 列 出 了 一 些 常 见 的 视频 电影 格式 。 注 意 ， 有 些 视 频 格式 被 划分 为 application 类 型 。 



























































表 D-11 “Video”MIME 类 型 
MIME 类 型 描 ë 扩 R 联系 方式 和 参考 文献 
video/MP4V-ES RTP 承载 的 MPEG-4 视频 负载 RFC 3016 
video/mpeg 根据 ISO 11172 CD MPEG 标准 编码 | mpeg, mpg. | RFC 1341 
的 视频 mpe 
video/parityfec RTP 流 上 承载 的 数据 所 使 用 的 前 向 RFC 3009 
纠 错 视频 格式 
video/pointer 传输 演示 指针 的 位 置信 息 RFC 2862 
video/quicktime 苦果 Quicktime 的 视频 格式 qt. mov http://www.apple.com 
600 | 附录 D 


( 续 ) 








MIME 类 型 描 j FO R 联系 方式 和 参考 文献 
video/vnd.fvt FAST Search & Transfer 公司 的 视频 | fvt Arild Fuldseth 
格式 Arild.Fuldseth@fast.no 
video/vnd.motorola. 摩托 罗拉 ISG 产品 的 特有 格式 Tom McGinty 
videovideo/vnd. Motorola ISG 
motorola.videop tmcginty@dma.isg.mot 
video/vnd.mpegurl 这 种 媒体 类 型 由 一 系列 MPEG 视频 | mxu Heiko Recktenwald 
文件 的 URL 构成 uzs106@uni-bonn.de 


“Power and Responsibility: 
Conversations with Contr- 
ibutors" , Guy van Belle 等 ， 
LMJ 9 (1999), 127-133, 
129 (MIT Press) 






































video/vnd.nokia. 在 诺基亚 9210 Communicator 视频 | nim Petteri Kangaslampi 
interleaved- 播放 器 及 相关 工具 中 使 用 petteri.kangaslampi@no- 
multimedia kia.com 

video/x-msvideo 微软 的 AVI 电影 avi http://www.microsoft.com 
video/x-sgi-movie 硅 图 公司 的 电影 格式 movie http://www.sgi.com 


D.4.10 ”实验 类 型 
主 类 型 集 支持 大 多 数 内 容 类 型 。 表 D-12 列 出 了 一 种 实验 类 型 ， 用 于 在 某 些 Web 服 
务 器 上 配置 的 会 议 软件 。 
表 D-12 扩展 MIME 类 型 
MIME 类 型 描 述 扩 展 联系 方式 和 参考 文献 








x-conference/x-cooltalk 网 景 公 司 的 协作 工具 ice 








MIME 类 型 | 601 
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HTTP 将 Base-64 编码 用 于 基本 认证 及 摘要 认证 ， 在 几 种 HTTP 扩展 中 也 使 用 了 该 
编码 。 本 附录 解释 了 Base-64 编码 ， 提 供 了 转换 表 和 指向 Perl 软件 的 指针 ， 可 以 帮 
助 你 在 HTTP 软件 中 正确 使 用 Base-64 编码 。 


E.1 Base-64 编 码 保 证 了 二 进 制 数据 的 安全 


Base-64 编码 可 以 将 任意 一 组 字 市 转换 成 较 长 的 常见 文本 字符 序列 ， 从 而 可 以 合法 
地 作为 首部 字段 值 。Base-64 编码 将 用 户 输入 或 二 进 制 数据 ， 打 包 成 一 种 安全 格式 ， 
将 其 作为 HTTP 首部 字段 的 值 发 送出 去 ， 而 无 须 担心 其 中 包含 会 破坏 HTTP 分 析 程 
序 的 冒号 、 换 行 符 或 二 进 制 值 。 


Base-64 编码 是 作为 MIME 多 媒体 电子 邮件 标准 的 一 部 分 开发 的 ， 这 样 MIME 就 可 
以 在 不 同 的 合法 电子 邮件 网 关 之 间 传输 富 文本 和 任意 的 二 进 制 数据 了 。 Base-64 编 
码 与 将 二 进 制 数据 文本 化 表示 的 uuencode 和 BinHex 标准 在 本 质 上 很 类 似 ， 但 空间 
效率 更 高 。MIME RFC 2045 的 第 6.8 节 详 细 介 绍 了 Base-64 算法 。 


E.2 8 位 到 6 位 


Base-64 编码 将 一 个 8 位 字 节 序列 拆散 为 6 位 的 片段 ， 并 为 每 个 6 位 的 片段 分 配 一 
个 字符 ， 这 个 字符 是 Base-64 字母 表 中 的 64 个 字符 之 一 。 这 64 个 输出 字符 都 是 很 
常见 的 ， 可 以 安全 地 放 在 HTTP 首部 字段 中 。 这 64 个 字符 中 包含 大 小 写字 母 、 数 
字 、+ 和 /， 还 使 用 了 特殊 字符 =。 表 E-1 显示 了 Base-64 的 字母 表 。 


注意 ， 由 于 Base-64 编码 用 了 8 位 字符 来 表示 信息 中 的 6 个 位 ， 所 以 Base-64 编码 
字符 串 大 约 比 原始 值 扩大 了 3396, 


表 E-1 Base-64 字 母 表 






















































































0 A IS I|16|Q 24| Y |32| g |40| 0 | 48| w | 56| 4 

1| B|9 J |17| R[25|Z|33 hh 4 p| 39 x | 57 5 

2 | C |IO|K |18| $|26 |a |34| i | 2|q]|50]| y |58| 6 

3 |D I|L|19| T|27| b 535| j |43| r | 51| z |59| 7 

4 |E|12 | M|2 0 1010102 | c | 36 k |44| s |52| 0 | 60 | 8 

5 | F | 13| N |21| V|29 | d 137 | 1 145 | t | 53 | 1 | 61 | 9 

6 | G 14/0 |22| Ww | 39 | e |38| m | 46| u | 54 | 2 | 62 | + 

7 |H | 15 | P /23| X | 31| f£ 139 | n | 42| v |55| 3 | 63 | / 
BE 1: 有 些 邮 件 网 关 会 悄悄 地 去 除 ASCII 值 在 0 ~ 31 之 间 的 “ 非 打 印 ” 字 符 。 其 他 程序 会 将 一 些 字 节 作为 





流量 控制 字符 或 其 他 特殊 控制 字符 来 解释 ， 或 将 回 车 符 转换 成 换行 符 之 类 的 字符 。 有 些 程序 在 收 到 带 
有 值 大 于 127 的 国际 字符 时 会 出 现 致命 的 错误 ， 因 为 其 软件 不 是 “8 位 干净 ”(8-bitclean) 的 。 
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E-1 是 一 个 简单 的 Base-64 编码 实例 。 在 这 里 ， 三 个 字符 组 成 的 输入 值 “Ow!” 
是 Base-64 编码 的 ， 得 到 的 是 4 个 字符 的 Base-64 编码 值 “T3ch”。 它 是 按 以 下 方式 
工作 的 。 


(1) 字符 串 “Ow!” 被 拆 分 成 3 个 8 位 的 字 节 (0x4F、0x77、0x21)。 

(2) 这 3 个 字 节 构成 了 一 个 24 位 的 二 进 制 值 010011110111011100100001。 

(3) 这 些 位 被 划分 为 一 些 6 位 的 序列 010011、110111、01110、100001。 

(4) 每 个 6 位 值 都 表示 了 从 0 ~ 63 之 间 的 一 个 数字 ， 对 应 Base-64 字母 表 中 64 个 
字符 之 一 。 得 到 的 Base-64 编码 字符 串 是 个 4 字符 的 字符 串 “T3ch”， 然 后 就 可 
以 通过 线路 将 这 个 字符 串 作 为 “安全 的 ”8 位 字符 传送 出 去 ， 因 为 只 用 了 一 些 
移植 性 最 好 的 字符 (字母 、 数 字 等 )。 




















位 字符 O W | 
sti (十 六 进 制 ， $4F $77 $21 
8 位 值 Ct) 010011110111011100100001 
6 位 值 t) 19 55 28 33 
Base-64 字 符 T 3 C h 














图 E-1 Base-64 编码 实例 


E.3 Base-64 填 充 


Base-64 编码 收 到 一 个 8 位 字 节 序列 ， 将 这 个 三 进 制 序 列 流 划 分 成 6 位 的 块 。 二 进 
制 序列 有 时 不 能 正好 平均 地 分 成 6 位 的 块 ， 在 这 种 情况 下 ， 就 在 序列 末尾 填充 零 位 ， 
使 二 进 制 序列 的 长 度 成 为 24 的 倍数 (6 和 8 的 最 小 公 倍 数 ) 。 

对 已 填充 的 二 进 制 串 进 行 编码 时 ， 任 何 完全 填充 〈 不 包含 原始 数据 中 的 位 ) 的 6 位 
组 都 由 特殊 的 第 65 个 符号 “=” 表 示 。 如 果 6 位 组 是 部 分 填充 的 ， 就 将 填充 位 设置 
为 0。 

X E-2 显示 了 一 些 填 充实 例 。 初 始 输入 字符 串 “a:a” 为 3 字 节 (24 位 )。24 是 6 和 
8 的 倍数 ， 因 此 无 需 填 充 ， 得 到 的 Base-64 编码 字符 串 为 “YTph”。 
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表 E-2 ”Base-64 填 充实 例 
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输入 数据 二 进 制 序列 ( 填充 位 以 x 表示 ) 已 编码 数据 
a:a 011000 010011 101001 100001 YTph 

a:aa 011000 010011 101001 100001 011000 OIxxxx XXXXXX XXXXXX YTphYQ-- 
a:aaa 011000 010011 101001 100001 011000 010110 0001xx xxxxxx YTphYWE- 
a:aaaa 011000 010011 101001 100001 011000 010110 000101 100001 YTphYWFh 


然而 ， 再 增加 一 个 字符 ， 输 入 字符 串 会 变 成 32 位 长 。 而 6 和 8 的 下 一 个 公 倍 数 是 
48， 因 此 要 添加 16 位 的 填充 码 。 填 充 的 前 4 位 是 与 数据 位 混合 在 一 起 的 。 得 到 的 
6 位 组 01xxxx， 会 被 当 作 010000、 十 进 制 中 的 16， 或 者 Base-64 编码 的 Q 来 处 理 。 
剩 下 的 两 个 6 位 组 都 是 填充 码 ， 用 “=” 表 示 。 








E.4 Pern% 


MIME::Base64 是 Perl 中 的 Base-64 编 / 解码 模块 。 可 以 在 http://www.perldoc.com/ 
perl5.6.1/lib/MIME/Base64.html 上 看 到 有 关 这 个 模块 的 内 容 。 


可 以 用 MIME::Base64 encode. base64 和 decode_base64 方法 对 字符 串 进 行 编 解 码 : 


use MIME::Base64; 


$encoded = encode base64('Aladdin:open sesame'); 
$decoded = decode base64($encoded); 


E. 5 更 多 信息 
更 多 有 关 Base-64 编码 的 信息 ， 参 见 以 下 信息 。 


http://www.ietf.org/rfc/rfc2045.txt 
RFC 2045 的 第 6.8 15, “MIME Part 1: Format of Internet Message Bodies," (MIME 
的 第 一 部 分 : 因特网 报 文 主体 的 格式 )， 是 Base-64 编码 的 官方 规范 。 


http://www.perldoc.com/perl5.6.1/lib/MIME/Base64.html 
这 个 Web 站 点 提供 了 对 Base-64 字符 串 进 行 编 / 解码 的 MIME::Base64 Perl 模块 的 
文档 。 
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本 附录 包含 了 实现 HTTP 摘要 认证 功能 所 需 的 支撑 数据 和 源 代码 。 


F.1 摘要 www-Authenticate 指 令 


s F-1 根据 RFC 2617 中 的 描述 ， 对 www-aAuthenticate 指令 进行 了 说 明 。 与 往常 
一 样 ， 最 新 细节 请 参见 官方 规范 。 


表 F-1 (来 自 RFC 2617 的 ) 摘要 www-Authenticate 首 部 指令 














iB 令 描 3 
realm 显示 给 用 户 的 字符 串 ， 这 样 用 户 就 可 以 知道 该 使 用 哪个 用 户 名 和 密码 了 。 这 个 字符 串 中 





至 少 应 该 包含 执行 认证 功能 的 主机 名 字 ， 此 外 可 能 还 会 说 明 可 能 拥有 访问 权 的 用 户 的 集 


合 。 例 如 ，registered_users@gotham.news.com 




















nonce 服务 器 特有 的 数据 字符 串 ， 每 次 产生 一 个 401 响应 时 都 应 该 生成 一 个 唯一 的 数据 字符 
串 。 建 议 这 个 字符 串 为 Base-64 或 十 六 进 制 数 据 。 需 要 特别 说 明 的 是 ， 由 于 此 字符 串 是 























放 在 首部 行 中 作为 引用 字符 串 传 送 的， 所 以 不 允许 使 用 双 引 号 。 
nonce 的 内 容 是 与 实现 有 关 的 。 实 现 的 质量 取决 于 选择 是 否 合适 。 比 如 ， 可 以 将 nonce 
构造 成 以 下 内 容 的 Base-64 编码 : 
time-stamp H(time-stamp ":" ETag ":" private-key) 
其 中 time-stamp 是 服务 器 生成 的 时 间或 其 他 不 重复 的 数值 ，ETag 是 与 所 请 求实 体 有 
关 的 HTTP ETag 首部 的 值 ，private-key 是 只 有 服务 器 知道 的 数据 。 使 用 这 种 形式 
的 nonce， 服 务 器 会 在 收 到 客户 端的 Authentication 首部 之 后 重新 对 散 列 部 分 进行 
计算 ， 如 果 与 该 首部 的 nonce 不 符 , 或 者 时 间 玲 的 值 不 够 近 ， 就 可 以 拒绝 请 求 。 通 过 这 
种 方式 ， 服 务 器 可 以 限制 nonce 的 有 效 时 间 。 包 含 ETag 可 以 防止 对 资源 更 新 版 本 的 重 
放 请 求 。( 注 意 : E none 中 包含 客户 端的 了 PP 地址， 看 起 来 好 像 为 服务 器 提供 了 限制 最 
初 获得 此 nonce 的 客户 端 重用 nonce 的 能 力 ， 但 这 样 会 破坏 代理 集群 ， 来 自 单个 用 户 的 
请 求 通常 都 会 经 过 集群 中 不 同 的 代理 进行 传输 。 而 且 ，IP 地 址 欺骗 也 不 是 很 难 。) 
实现 可 以 选择 不 接受 以 前 用 过 的 nonce， 或 以 前 用 过 的 摘要 ， 以 防止 重 放 攻击 ,或 者 选 
FEJ POST 或 PUT 请求 使 用 一 次 性 nonce 或 摘要 ， 为 GET 请 求 使 用 时 间 戳 







































































































































































domain 一 个 引用 的 、 由 空格 分 隔 的 URI 列表 (如 RFC 2396, "Uniform Resource Identifiers: 
GenericSyntax” 所 述 ) ， 这 些 URI 定 义 了 保护 空间 。 如 果 URI 是 个 abs_path， 它 就 是 相 
对 于 受 访 服务 器 的 典型 根 URL 的 。 这 个 列表 中 的 绝对 URI 所 指 的 服务 器 可 能 不 是 受 访 
服务 器 。 
客户 端 可 以 用 这 个 列表 来 判定 应 该 将 同样 的 认证 信息 发 送 给 哪个 URI 集 : 可 以 假定 所 有 
以 此 列表 中 的 URI 作为 前 缀 的 URI (在 将 两 者 都 转换 为 绝对 URI 之 后 ) 都 位 于 同一 个 
保护 空间 内 。 
如 果 省 略 了 这 条 指令 ， 或 者 其 值 为 空 ， 客 户 端 就 应 该 假定 保护 空间 中 包含 了 响应 服务 器 
上 的 所 有 URI。 
这 条 指令 在 Proxy-Authenticate 首部 是 无 意义 的 ， 此 时 ， 保 护 空间 总 是 包括 整个 代 
FB, 如果 提 供 了 这 条 指令 ， 也 应 该 将 其 忽略 





















































608 | 附录 F 


# 仿 


描 xh 





opaque 


stale 


algorithm 


qop 


<extension> 


一 个 由 服务 器 指定 的 数据 串 ， 应 该 由 客户 端 不 经 修改 地 放 在 后 继 请 求 的 Authorization 
首部 中 返回 ， 这 些 后 继 请 求 应 使 用 同一 保护 空间 内 的 URI。 建 议 这 个 字符 串 采用 Base-64 
或 十 六 进 制 的 数据 





















































一 个 标志 ， 用 来 说 明 由 于 nonce 值 太 过 陈旧 ， 前 一 条 来 自 客户 端的 请 求 被 拒绝 了 。 如 
果 stale 为 TRUE (不 区 分 大 小 写 )， 客 户 端 可 能 希望 以 新 加 密 的 响应 重 试 请 求 ， 而 不 用 
再 次 提示 用 户 输 入 新 的 用 户 名 和 密码 。 只 有 在 服务 器 收 到 一 条 nonce 无 效 ， 但 摘要 有 效 
的 请 求 (说 明 客 户 端 知 道 正确 的 用 户 名 /密码 ) 时 ， 才 应 该 将 stale 设置 为 TRUE。 如 果 
stale 为 FALSE， 或 者 除 TRUE 之 外 的 其 他 值 ， 或 者 没有 提供 stale 指令 ， 用 户 名 和 /或 
密码 就 是 无 效 的 ， 需 要 获取 新 的 值 



















































































一 个 字符 串 ， 说 明了 一 对 儿 用 来 生成 摘要 和 校 验 码 的 算法 。 如 果 疫 有 提供 这 个 字符 串 ， 
就 假定 它 为 “MD5”。 如 果 不 识别 此 算法 ， 就 忽略 这 种 质询 (如果 有 多 个 算法 的 话 ， 就 
使 用 另外 一 
在 这 份 文档 中 ， 用 “KD(secret,data)” 来 表示 用 密码 “secret” 对 数据 “data” 使 用 
摘要 算法 得 到 的 字符 串 ， 而 对 数据 “data” 使 用 校 验 和 算法 得 到 的 字符 串 则 表示 为 
“H(data)”。 表 示 法 “unq(X)” 表 示 引 用 字符 串 “X” 的 值 〈 不 包含 左右 两 边 的 引号 ) 。 
对 MD5 和 MD5-sess 算法 来 说 : 

H(data) = MD5 (data) 

HD(secret, data) = H(concat (secret, ":", data)) 


也 就 是 说 ， 摘 要 就 是 将 密码 的 MD5 与 冒号 和 数据 连接 在 一 起 。MD5-sess 算法 目的 是 支 
持 使 用 高 效 的 第 三 方 认 证 服务 器 


这 条 指令 是 可 选 的 ， 只 是 为 了 与 REFC 2069[6] 后 向 兼容 才 保 留 的 。 所 有 与 此 版 本 的 摘要 
方案 兼容 的 实现 都 应 该 使 用 它 。 
如 果 提供 了 这 条 指令 ， 它 就 是 由 一 个 或 多 个 标记 构成 的 引用 字符 串 ， 用 来 说 明 服务 器 所 
支持 的 “安全 保障 ” 值 。 值 auth 说 明 要 进行 认证 ， 值 auth-int 说 明 要 进行 具有 完整 性 保 
护 的 认证 。 一 定 要 忽略 那些 不 识别 的 选项 




















































































































未 来 可 以 通过 这 条 指令 进行 扩展 。 要 忽略 所 有 不 认识 的 指 


F.2 摘要 Authorization 指 令 


表 F-2 根据 RFC 2617 的 描述 ， 对 每 条 摘要 Authorization 指令 都 进行 了 说 明 。 最 
新 的 细 市 请 参见 官方 规范 。 


表 F-2 (来自 RFC 261783) 摘要 Authorization 首 部 指令 

















指 令 描 述 
username 指定 域 中 的 用 户 名 
realm 在 WWW-Authenticate 首部 中 传送 给 客户 端的 域 
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i S 

nonce 在 WwWW-Authenticate 首部 中 传送 给 客户 端的 那个 与 服务 器 相同 的 nonce 

uri 来 自 请 求 行 请 求 URI 中 的 URI。 由 于 代理 可 以 在 传输 中 修改 请 求 行 ， 所 以 会 出 现 
重复 。 进 行 正确 的 摘要 验证 计算 可 能 原始 URI 

Tesponse 这 个 就 是 实际 的 摘要 一 一 摘要 认证 的 应 是 一 个 由 32 个 十 六 进 制 数 字 组 
成 的 字符 串 ， 由 沟通 好 的 摘要 算法 生成 ， 用 来 证 明 用 户 知道 这 个 密码 

algorithm 一 个 字符 串 ， 说 明了 用 来 生成 摘要 和 校 验 和 的 一 对 儿 算 法 。 如 果 未 提供 ， 就 将 其 
假定 为 MD5 

opaque 服务 器 在 WWW-Authenticate 首部 指定 的 数据 串 ， 应 该 由 客户 端 不 经 修改 地 在 
后 继 请 求 的 www-Authenticate 首部 中 返 这 个 请 求 应 使 用 同一 保护 空间 内 
的 URI 

cnonce 如 果 发 送 了 qop 指令 ， 就 一 定 要 使 用 这 条 指令 ， 如 果 服 务 器 没有 在 WWW-Auchenticate 
首部 字段 中 发 送 qop 指令 ， 就 一 定 不 能 使 用 这 条 指令 。 
cnonce 值 是 客户 端 提 供 的 不 透明 引用 字符 串 值 ， 客 户 端 和 服务 器 都 用 它 来 避免 选 
择 明 文 攻击 ， 以 提供 双向 认证 以 及 一 些 报 文 一 致 性 检查 。 
参见 本 附录 稍 后 介绍 的 响应 摘要 和 请 求 摘要 计算 

qop 说 明 客 户 端 对 报 文 应 用 的 “安全 保障 ”是 什么 。 如 果 提 供 了 这 条 指令 ， 它 的 值 就 

必须 是 服务 器 在 wwW-Authenticate 首部 中 说 明 的 、 它 支持 的 可 选 值 之 一 。 这 

些 值 会 影响 请 求 摘要 的 计算 方式 。 
它 只 是 个 单独 的 标记 ， 而 不 是 WwW-Authenticate 中 那样 的 可 选 值 引用 列表 。 
这 条 指令 是 可 选 的 ， 以 保持 对 RFC 2069 最 小 实现 的 后 向 兼容 ， 但 如 果 服 务 器 说 
明 它 是 通过 在 www-Authenticate 首部 字段 中 提供 qop 指令 来 支持 qop 的 ， 就 
应 该 使 这 条 指令 

nc 如 果 发 送 了 qop 指令 ， 就 一 定 要 指定 这 条 指令 ， 如 果 服 务 器 没有 在 WWW- 
Authenticate 首部 字 ad qop 指令 ， 就 一 定 不 能 使 用 这 条 指令 。 
甚 值 是 个 十 六 进 制 值 ， 表 示 客 户 端 已 经 发 送 的 包含 nounce 值 的 请 求 次 数 (包括 

当前 请 求 在 内 )。 比 如 ， 作 为 对 指定 nonce 值 的 响应 发 送 的 第 一 条 请 求 中 ， 客 户 

RARE nc="00000001", 
这 条 指令 的 目的 是 允许 服务 器 通过 维护 自己 保存 的 此 计数 值 副本 来 发 现 请 求 重 
放 nre 1 了 两 次 相同 的 nc 值 ， 就 说 明 请 求 是 重 放 的 

<extension> 未 来 可 以 通过 这 条 指令 进行 扩展 。 所 有 不 认识 的 指令 都 要 忽略 掉 





F.3 摘要 Authentication-Info 指 令 


K F-3 根据 RFC 2617 的 描述 ， 对 
最 新 的 细节 请 参见 





十 每 条 Authentication-Info 指令 都 进行 了 说 明 。 
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表 F-3 (来 自 RFC 2617 的 ) 摘要 authentication-Info 首 部 指令 
E S Jj xk 


nextnonce nextnonce 指令 的 值 是 服务 器 希望 客户 端 为 未 来 的 认证 响应 使 用 的 nonce。 服 务 器 
可 能 会 发 送 带 有 nextnonce 字段 的 Authentication-Info 首 部， 作为 实现 一 
次 性 nonce 或 修改 nonce 的 手段 。 如 果 提 供 了 nextnonce 字段 ， 客 户 端 在 为 下 一 
RERE Authorization 首部 时 就 应 该 使 用 它 。 客 户 端 如 果 没 能 做 到 ， 就 会 
收 到 来 自 服务 器 的 "stale=TRUE" 认证 请 求 。 
服务 器 实现 应 该 仔细 地 考虑 使 用 这 种 机 制 带 来 的 性 能 影响 。 如 果 每 条 响应 都 包含 
了 必须 在 服务 器 接收 的 下 一 条 请 求 中 使 用 的 nextnounce 指令 ， 就 不 可 能 使 用 管道 
化 请 求 了 。 应 该 考虑 在 性 能 和 安全 之 间 进 行 一 些 平 衡 ， 允 许 在 有 限 的 时 间 内 使 用 
老 的 nonce 值 ， 以 实现 请 求 的 管道 化 。 使 用 nounce 计数 可 以 在 不 影响 管道 化 的 
情况 下 ， 维 护 一 个 新 的 服务 器 nonce 的 大 部 分 安全 优势 





















































qop 说 明了 服务 器 应 用 到 响应 上 的 “安全 保障 ”选项 。 值 auth 说 明 要 进行 认证 ， 值 
auth-int 说 明 要 进行 带 有 完整 性 保护 的 认证 。 服 务 器 在 响应 中 使 用 的 qop 指令 值 
应 该 与 客户 端 在 相应 请 求 中 发 送 的 值 相同 

















t 


























rspauth response auth 指令 中 的 可 选 响应 摘要 支持 双向 认证 一 一 服务 器 证 明了 它 知道 用 户 
的 密码 ， 而 且 通 过 qop="auth-int"， 它 还 为 响应 提供 了 有 限 的 完整 性 保护 。 
除了 当 qop="auth" 或 者 没有 在 Authorization 首部 为 请 求 指 定 qop 的 情 
况 ，response-digest 值 的 计算 方式 与 Authorization 首部 的 request- 
digest 类 似 ，A2 为 : 


















































A2 = ":" digest-uri-value 
当 gop-"auth-int" 时 ，A2 为 : 
A2 = ":" digest-uri-value ":" H(entity-body) 


其 中 digest-uri-value 是 请 求 的 Authorization 首部 中 ui 指令 的 值 。 
cnonce 和 nc 值 一 定 要 与 此 报 文 所 响应 的 客户 端 请 求 中 的 相应 值 相 同 。 如 果 指 定 
T qop="auth "或 者 qop="auth-int"， 就 必须 提供 rspauth 指令 























cnonce cnonce 值 一 定 要 与 此 报 文 所 响应 的 客户 端 请 求 中 的 相应 值 一 样 。 如 果 指 定 了 


qop="auth " 或 qop="auth-int", 就 必须 提供 cnonce 指令 





nc nc 值 一 定 要 与 此 报 文 所 响应 的 客户 端 请 求 中 的 相应 值 一 样 。 如 果 指 定 了 
qop-"auth "或 qop="auth-int"， 就 必须 提供 nc 指令 








<extension> 未 来 可 以 通过 这 条 指令 进行 扩展 。 所 有 不 识别 的 指令 都 要 忽略 掉 


FA 参考 代码 


下 列 代 码 实现 了 RFC 2617 中 H(A1)、H(A2)、request-digest 和 response-digest 的 计 
算 。 它 使 用 了 RFC 1321 中 的 MD5 实现 。 
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F.4.1 文件 digcalc.h 


#define HASHLEN 16 

typedef char HASH[HASHLEN]; 

#define HASHHEXLEN 32 

typedef char HASHHEX [HASHHEXLEN+1]; 








577 #define IN 








#define OUT 
/* calculate H(A1) as per HTTP Digest spec */ 
void DigestCalcHA1( 

IN char * pszAlg, 


IN char * pszUserName, 
IN char * pszRealm, 
IN char * pszPassword, 
IN char * pszNonce, 


IN char * pszCNonce, 
OUT HASHHEX SessionKey 
) 


/* calculate request-digest/response-digest as per HTTP Digest spec */ 
void DigestCalcResponse( 

N HASHHEX HA1, /* H(A1) */ 

IN char * pszNonce, /* nonce from server */ 


N char * pszNonceCount, /* 8 hex digits */ 

IN char * pszCNonce, /* client nonce */ 

IN char * pszQop, /* qop-value: "", "auth", "auth-int" */ 
IN char * pszMethod, /* method from the request */ 


IN char * pszDigestUri, /* requested URL */ 

N HASHHEX HEntity, /* H(entity body) if qgop-"auth-int" */ 
OUT HASHHEX Response /* request-digest or response-digest */ 
2j 





F.4.2 文件 “digcalc.c” 


#include <global.h> 
#include <md5.h> 
#include <string.h> 
#include "digcalc.h" 


void CvtHex( 
IN HASH Bin, 
OUT HASHHEX Hex 
) 


unsigned short i; 
unsigned char j; 
for (i = 0; i < HASHLEN; i++) Í 


j = (Bin[i] >> 4) & Oxf; 
if (J <= 9) 
Hex[i*2] = (j + '0'); 
else 
Hex[i*2] = (j + 'a' - 10); 


j = Bin[i] & Oxf; 
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rE Cyxs9) 





Hex[i*2«41] = (j + '0'); 
else 
Hex[i*2+1] = (j + 'a' - 10); 
和 
Hex[HASHHEXLEN] = '\0'; 578 











ju 


/* calculate H(A1) as per spec */ 
void DigestCalcHA1( 
IN char * pszAlg, 


IN char * pszUserName, 
IN char * pszRealm, 
IN char * pszPassword, 
IN char * pszNonce, 


IN char * pszCNonce, 
OUT HASHHEX SessionKey 
) 





MD5 CTX Md5Ctx; 
HASH HA1; 
MD5Init (&Md5Ctx); 
MD5Update(&Md5Ctx, pszUserName, strlen(pszUserName)); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszRealm, strlen(pszRealm)); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszPassword, strlen(pszPassword)); 
MD5Final(HA1, &Md5Ctx); 
if (stricmp(pszAlg, "md5-sess") == 0) Í 
MD5Init (&Md5Ctx); 
MD5Update(&Md5Ctx, HA1, HASHLEN); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszNonce, strlen(pszNonce)); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszCNonce, strlen(pszCNonce)); 
MD5Final(HA1, &Md5Ctx); 





); 
CvtHex (HA1, SessionKey); 
); 
/* calculate request-digest/response-digest as per HTTP Digest spec */ 
void DigestCalcResponse( 
IN HASHHEX HA1, /* H(A1) */ 
IN char * pszNonce, /* nonce from server */ 
IN char * pszNonceCount, /* 8 hex digits */ 
IN char * pszCNonce, /* client nonce */ 
IN char * pszQop, /* qop-value: "", "auth", "auth-int" */ 
IN char * pszMethod, /* method from the request */ 
IN char * pszDigestUri, /* requested URL */ 
IN HASHHEX HEntity, /* H(entity body) if qop= "auth-int" */ 
OUT HASHHEX Response /* request-digest or response-digest */ 
) 





MD5 CTX Md5Ctx; 
HASH HA2; 

HASH RespHash; 
HASHHEX HA2Hex; 

// calculate H(A2) 
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MD5Init (&Md5Ctx); 

MD5Update(&Md5Ctx, pszMethod, strlen(pszMethod)); 
MD5Update(&Md5Ctx, ":", 1); 

MD5Update(&Md5Ctx, pszDigestUri, strlen(pszDigestUri)); 
if (stricmp(pszQop, "auth-int") == 0) Í 
MD5Update(&Md5Ctx, ":", 1); 

MD5Update(&Md5Ctx, HEntity, HASHHEXLEN); 








J; 

MD5Final(HA2, &Md5Ctx); 

CvtHex(HA2, HA2Hex); 

// calculate response 

MD5Init (&Md5Ctx); 

MD5Update(&Md5Ctx, HA1, HASHHEXLEN); 

MD5Update(&Md5Ctx, ":", 1); 

MD5Update(&Md5Ctx, pszNonce, strlen(pszNonce)); 

MD5Update(&Md5Ctx, ":", 1); 

if (*pszQop) Í 
MD5Update(&Md5Ctx, pszNonceCount, strlen(pszNonceCount)); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszCNonce, strlen(pszCNonce)); 
MD5Update(&Md5Ctx, ":", 1); 
MD5Update(&Md5Ctx, pszQop, strlen(pszQop)); 
MD5Update(&Md5Ctx, ":", 1); 


hs 


MD5Update(&Md5Ctx, HA2Hex, HASHHEXLEN); 
MD5Final(RespHash, &Md5Ctx); 
CvtHex(RespHash, Response); 


F.4.3 ”文件 digtest.c 


#include <stdio.h> 
#include "digcalc.h" 


void main 


int argc, char ** argv) Í 


( 
char * pszNonce = "dcd98b7102dd2fO0e8bl11d0£f600bfb0c093"; 
char * pszCNonce = "0a4f113b"; 
char * pszUser = "Mufasa"; 
char * pszRealm = "testrealmehost.com"; 
char * pszPass - "Circle Of Life"; 
char * pszAlg = "md5"; 
char szNonceCount[9] = "00000001"; 
char * pszMethod = "GET"; 
char * psgQop s "auth"; 
char * pszURI = "/dir/index.html"; 





HASHHEX HA1; 

HASHHEX HA2 = ""; 

HASHHEX Response; 

DigestCalcHAl(pszAlg, pszUser, pszRealm, pszPass, 
pszNonce, pszCNonce, HA1); 
DigestCalcResponse(HA1, pszNonce, szNonceCount, pszCNonce, 
pszMethod, pszURI, HA2, Response); 

printf ("Response = $sWMn", Response); 


pszQop, 
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附录 GG 





语言 标记 














语言 标记 是 一 些 短 小 的 标准 字符 串 ， 用 来 命名 所 使 用 的 语言 一 一 比如 ,人 在 (法 语 ) 
和 en-GB ( 英 式 英语 )。 每 个 标记 都 由 一 个 或 多 个 称 为 子 标记 的 部 分 组 成 ， 中 间 由 连 
字符 分 隔 。16.4 节 曾 详细 介绍 了 语言 标记 。 

本 附录 总 结 了 语言 标记 的 规则 、 标 准 化 的 标记 以 及 注册 信息 。 包 含 下 列 参 考 资 料 : 

° G.1 市 总 结 了 第 一 个 GE) 子 标记 所 用 规则 ， 

° G.2 节 总 结 了 第 二 个 子 标 记 所 用 规则 ; 

。 X G-1 显示 了 已 在 IANA 注册 的 语言 标记 ; 

。 X G-2 列 出 了 ISO 639 语言 代码 ; 

° X G-3 列 出 了 ISO 3166 国家 代码 。 


G.1 第 一 个 子 标 记 所 用 规则 
如 果 第 一 个 子 标记 为 ， 


。 2 个 字符 长 ， 是 ISO 639 和 639-1 标准 的 语言 代码 

。 3 个 字符 长 ， 是 ISO 639-2 标准 中 列 出 的 语言 代码 ， 

。 字母 “i”， 语 言 标记 就 是 在 IANA 中 显 式 注册 过 的 语言 标记 ; 
。 FÈ “x”, 语言 标记 就 是 私有 的 、 非 标准 的 扩展 子 标记 。 


表 G-2 总 结 了 ISO 639 和 639-2 的 名 称 。 


G.2 第 二 个 子 标记 所 用 规则 
如 果 第 二 个 子 标记 为 ， 


。 2 个 字符 长 ， 就 是 ISO 3166 定义 的 国家 /地 区 码 ; 
。 3 一 8 个 字符 长 ， 是 已 在 IANA 注册 过 的 语言 标记 ， 
。 1 个 字符 长 ， 就 是 非法 的 。 


K G-3 总 结 了 ISO 3166 国家 代码 。 
































注 1: 参见 ISO 标准 639, “Codes for the representation of names of languages" , 

注 2: 参见 ISO 639-2, “Codes for the representation of names of languages 一 Part 2: Alpha-3 code”( 语 言 名表 
示 码 一 一 第 2 部 分 : Alpha-3 代码 )。 

注 3: ISO 3166 将 国家 代码 AA、QM-QZ、XA-XZ 和 ZZ 保留 作为 用 户 分 配 的 代码 。 不 能 用 它们 来 构造 语 
言 标记 。 
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G.3 


IANA 已 注册 的 语言 标记 























表 G-1 语言 标记 
IANA 语 言 标 记 描 述 
i-bnn 布农 语 
i-default 默认 语言 背景 
i-hak 客家 语 
i-klingon 克 林 根 语 
i-lux FREE 
i-mingo HI y 
i-navajo 2A IUE YS 
i-pwn 排 湾 语 
i-tao 越南 语 
i-tay 泰雅 语 
i-tsu Z3: 
no-bok 挪威 “书面 语言 ” 
no-nyn 挪威 “新 挪威 语 ” 
zh-gan D» 
zh-guoyu 普通 话 或 标准 汉语 
Zh-hakka 客家 话 
zh-min 国语 、 福 州 话 、 福 建 话 、 厦 门 话 或 台湾 话 
zh-wuu 上 海 话 或 吴语 
Zh-xiang 湘 语 或 湖南 话 
Zh-yue 粤语 
G.4 1SO 639 语 言 代码 
表 G-2 ISO 639 和 |SO 639-2 语 言 代码 
B 8B ISO 639 ISO 639-2 
阿布 哈 西亚 语 ab abk 
亚 齐 语 ace 
阿 乔 利 语 ach 
阿 当 梅 语 ada 
阿 法 尔 语 aa aar 
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582 
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ISO 639-2 













































































语 RN ISO 639 

buf Jp EB RU afh 
南非 语 af afr 
其 他 亚 非 语系 afa 
阿 坎 语 aka 
阿 卡 德语 akk 
阿尔 巴 尼 亚 语 sq alb/sqi 
阿留 申 语 ale 
阿尔 冈 昆 语系 alg 
其 他 阿尔 泰语 系 tut 
阿 姆 哈 拉 语 am amh 
阿 帕 切 语 apa 
阿拉 伯 语 ar ara 
阿拉 米 语 arc 
阿拉 帕 霍 语 arp 
阿 劳 卡 尼 亚 语 arn 
阿拉 无 克 语 arw 
亚美尼亚 语 hy arm/hye 
其 他 人 工 语言 art 
Bof PREFE as asm 
阿 搬 帕 斯 坎 巴 斯 卡 语系 ath 
其 他 南 岛 语系 map 
阿 瓦尔 语 n 
阿 维 斯 陀 语 ave 
阿 瓦 德语 awa 
艾 马 拉 语 ay aym 
阿塞拜疆 语 az aze 
阿 兹 台 克 语 nah 
巴厘 语 ban 
其 他 波 罗 地 语系 语言 bat 
你 路 支 语 bal 
班 巴 拉 语 bam 
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语 言 ISO 639 ISO 639-2 
um Spp bai 
HEAT bad 
其 他 班 图 语系 语言 bnt 
巴萨 语 bas 
巴 什 基 尔 语 ba bak 
巴 斯 克 语 eu bag/eus 
贝 雅 语 bej 
本 巴 语 bem 
sh nbi bn ben 
其 他 帕 帕 尔 语 ber 
BG bho 
比 哈 尔 语 bh bih 
比 科 尔 语 bik 
比 尼 语 bin 
比 斯 拉 马 语 bi bis 
布 拉 吉 语 bra 
布尔 吞 语 be bre 
布吉 语 bug 
保加利亚 语 bg bul 
布 里 亚 特 语 bua 
缅甸 语 my bur/mya 
白俄罗斯 语 be bel 
卡 多 语 cad 
巴 勒 比 语 car 
加 泰 罗 尼 亚 语 ca cat 
其 他 高 加 索 语系 语言 cau 
宿 务 语 ceb 
其 他 凯 尔 特 语系 语言 cel 
其 他 中 美洲 印第安 语系 语言 cai 
查 加 台 语 chg 
查 莫 罗 语 cha 
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( 续 ) 













































































= = ISO 639 ISO 639-2 

车 臣 语 che 
切 罗 基 语 chr 
E WES chy 
契 布 卡 语 chb 
汉语 zh chi/zho 
契 努 克 混 合 语 chn 
乔 克 托 语 cho 
古 教会 斯 拉夫 语 chu 
AE FLAME chv 
科普 特 语 cop 
康 沃 尔 语 COT 
科 西 嘉 语 co cos 
s gs cre 
克 里 克 语 mus 
其 他 克 里 奥 尔 混合 语 crp 
其 他 英语 克 里 奥 尔 混 合 语 cpe 
其 他 法 语 克 里 奥 尔 混合 语 cpf 
其 他 葡萄 牙 语 克 里 奥 尔 混 合 语 cpp 
其 他 库 什 特 语系 语言 cus 
克罗地亚 语 hr 

捷克 语 CS ces/cze 
达科他 语 dak 
丹麦 语 da dan 
特 拉 华 语 del 
丁 卡 语 din 
迪 维 希 语 div 
多 格拉 语 doi 
其 他 德 拉 维 语系 语言 dra 
杜 亚 拉 语 dua 
荷兰 语 nl dut/nla 
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( 续 ) 


































































































语 言 ISO 639 ISO 639-2 

中 古 荷 兰 语 ( 约 1050 年 ~ 1350 年 ) dum 
迪 乌 拉 语 dyu 
宗 喀 语 dz dzo 
PESA efi 
古 埃 及 语 egy 
Y vi, Fr vs eka 
Mt elx 
英语 en eng 
中 古 英语 ( 约 1100 年 ~ 1500 4E) enm 585 
古 英 语 (29 450 年 ~ 1100 4E.) ang 
其 他 爱斯基摩 语系 语言 esk 
世界 语 eo epo 
爱沙尼亚 语 et est 
爱 威 语 ewe 
艾 旺 多 语 ewo 
Xd fan 
PI fat 
法 罗 语 fo fao 
斐济 语 fj fij 
芬兰 语 fi fin 
其 他 芬兰 - B, KURI 1 ri fiu 
丰 族 语 fon 
法 语 fr fra/fre 
中 十 法 语 (2j 1400 年 ~ 1600 4E) frm 
古 法 语 ( 约 842 年 ~ 1400 4£) fro 

里 西亚 语 fy fry 
富 拉 语 ful 
加 语 gaa 
盖 尔 语 (苏格兰 ) gae/gdh 
加 利 西亚 语 gl glg 
PAE lug 
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语 言 ISO 639 ISO 639-2 
卡 约 语 gay 
古 兹 语 gez 
格鲁吉亚 语 ka geo/kat 
德语 de deu/ger 
中 古 高 地 德语 (Z 1050 年 ~ 1500 4E) gmh 
古 高 地 德语 ( 约 750 年 ~ 1050 年) goh 
其 他 德语 语系 语言 gem 
吉尔 伯 特 语 gil 
贡 德 语 gon 
哥 特 语 got 
格 列 博 语 grb 
TRE (至 1453 年 ) grc 
现代 希腊 语 (1453 年 至 今 ) el ell/gre 
586 格陵兰 语 kl kal 

瓜 拉 尼 语 gn grn 
古 吉 拉 特 语 gu guj 
TAS hai 
XE ha hau 
HARE haw 
希 伯 来 语 he heb 
赫 雷 罗 语 her 
希 利 盖 农 语 hil 
EDERE him 
印 地 语 hi hin 
希 里 莫 图 语 hmo 
匈牙利 语 hu hun 
胡 帕 语 hup 
伊 班 语 iba 
冰岛 语 is ice/isl 
伊 博 语 ibo 
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语 言 ISO 639 ISO 639-2 
伊 乔 语 ijo 
伊 治 卡 诺 语 ilo 
其 他 印度 - 雅 利安 语系 inc 
其 他 印 欧 语系 语言 ine 
印度 尼 西 亚 语 id ind 
国际 语 ia ina 
西方 国际 语 ie ine 
因 纽 特 语 iu iku 
0955 Re ME vs ik ipk 
其 他 伊朗 语系 语言 ira 
爱尔兰 语 ga gai/iri 
古 爱 尔 兰 语 (至 900 年 ) sga 
中 古 爱 尔 兰 语 (900 年 ~ 1200 年 ) mga 
伊 洛 魁 语系 语言 iro 
意大利 语 it ita 
日 语 ja jpn 
爪哇 语 jwWjw jav/jaw 
犹太 阿拉 伯 语 jrb 
犹太 波斯 语 jpr 
卡 布 列 语 kab 587 
景颇 语 kac 
坎 巴 语 kam 
卡 纳 达 语 kn kan 
卡 努 里 语 kau 
卡拉 一 卡尔 帕克 语 kaa 
LAUS kar 
克什米尔 语 ks kas 
卡 威 语 kaw 
哈萨克 语 kk kaz 
卡 西 语 kha 
高 棉 语 km khm 
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(5X) 
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i ë ISO 639 ISO 639-2 

其 他 科 依 桑 语系 语言 khi 
pups kho 
基 库 尤 语 kik 
卢旺达 语 TW kin 
柯尔克孜 语 ky kir 
科 米 语 kom 
刚果 语 kon 
孔 卡 尼 语 kok 
韩语 ko kor 
克 佩 勒 语 kpe 

fd kro 
宽 亚 玛 语 kua 
库 梅 克 语 kum 
库尔德 语 ku kur 
库 鲁 克 语 kru 
spe a kus 
库 特 内 语 kut 
拉 迪 诺 语 lad 
bius lah 
兰 巴 语 lam 
奥 克 语 (公元 前 1500 年 ) oc oci 
老挝 语 lo lao 
拉丁 语 la lat 
拉脱维亚 语 lv lav 
卢森堡 语 ltz 
列 兹 基 语 lez 
林 加 拉 语 ln lin 
arp siis 1t lit 
洛 齐 语 loz 
卢 巴 - 卡 丹 加 语 lub 





卢 伊 塞 诺 语 








lui 
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( 续 ) 





























语 š ISO 639 ISO 639-2 

隆 达 语 lun 

卢 奥 语 (肯尼亚 与 坦 桑 比 亚 ) luo 
马其顿 语 mk mac/mak 
马 都 拉 语 mad 
摩 揭 陀 语 mag 
迈 蒂 利 语 mai 
旺 加 锡 语 mak 
马达 加 斯 语 mg mlg 
马 来 语 ms may/msa 
马 拉 雅 拉 姆 语 mal 
马耳他 语 ml mlt 
曼 丁 哥 语 man 
曼 尼 普 尔 语 mni 
马 诺 博 诸 语 mno 
曼 岛 语 max 
毛利 语 mi mao/mri 
马 拉 地 语 mr mar 
马里 语 chm 
马绍尔 语 mah 
马尔 瓦 利 语 mwr 
马 萨 伊 语 mas 
玛雅 语 myn 
门 德语 men 
密 克 玛 克 语 mic 
米 南 卡 保 语 min 
多 种 其 他 语言 mis 
KEE moh 
摩尔 达 维 亚 语 mo mol 
其 他 雷 高 棉 语族 mkh 
TX lol 
蒙古 语 mn mon 
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语 = ISO 639 ISO 639-2 

默 希 语 mos 
多 语种 mul 
蒙 达 话 族 mun 
Fa ES na nau 
ALEE nav 
北 恩德 贝勒 语 nde 
南 恩德 贝勒 语 nbl 
A miS ndo 
尼泊尔 语 ne nep 
JE ILS new 
其 他 尼日尔 - 科 尔 多 凡 语 系 语 言 nic 

其 他 尼 罗 -撒哈拉 语系 ssa 
纽 埃 语 niu 
古 诺尔 斯 语 non 
其 他 北美 印第安 语族 语言 nai 

挪威 语 no nor 
挪威 布 克 莫 尔 语 nno 
努 比 亚 语族 nub 
尼 扬 韦 齐 语 nym 
尼 扬 机 语 nya 
尼 扬 科勒 话 nyn 
尼 奥 罗 语 nyo 
恩 济 马 语 nzi 

奥 吉 布 瓦 语 oji 

奥 利 亚 语 or ori 

奥 罗 莫 语 om orm 
JU Fs osa 
奥 塞 梯 语 OSS 

奥 托 米 安 语系 oto 

钵 罗 维 语 pal 

帕 劳 语 pau 
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# ë ISO 639 ISO 639-2 
巴 利 语 pli 
邦 板牙 语 pam 
邦 阿 西 楠 语 pag 
旁遮普 语 pa pan 590 
帕 皮 亚 门 托 语 pap 
其 他 巴布亚 - 澳洲 语系 语言 paa 
波斯 语 fa fas/per 
古 波斯 语 (大 约 公元 前 600 年 ~ 400 年 ) peo 
腓 尼 基 语 phn 
波兰 语 pl pol 
波 纳 佩 语 pon 
[LPS pt por 
普 拉 克 里 特 语 族 pra 
古 普罗 旺 斯 语 (至 1500 年 ) pro 
普 什 图 语 ps pus 
克 丘 亚 语 qu que 
里 托 罗曼 斯 语 rm roh 
拉 贾 斯 坦 语 raj 
拉 罗 汤加 语 rar 
其 他 罗曼 语系 语言 roa 
罗马 尼 亚 语 ro ron/rum 
罗 姆 语 rom 
基隆 迪 语 rn run 
俄语 ru rus 
萨 利 什 语系 sal 
萨 马利亚 阿拉 米 语 sam 
萨 米 语系 语言 smi 
萨摩 亚 语 Sm smo 
KRPA sad 
XX sg sag 
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语 = ISO 639 ISO 639-2 
^51 sa san 
p* T JEXETÉ srd 
苏格兰 语 sco 
塞 尔 库 普 语 sel 
其 他 内 米 特 语系 语言 sem 
塞尔维亚 语 ST 
T s Ui. sh SCT 
塞 雷 尔 语 SIr 
TRIS shn 
修 纳 语 sn sna 
锡 达 英语 sid 
西 克 西 卡 语 bla 
信德 语 sd snd 

兽 伽 罗 语 Si sin 
其 他 汉 藏 语系 语言 Sit 
苏 语系 语言 sio 
其 他 斯 拉夫 语族 sla 
西 斯 旺 语 SS SSW 
斯 洛 伐 克 语 sk slk/slo 
斯 洛 文 尼 亚 语 sl slv 
BER sog 
索马里 语 so som 
utis son 
索 布 语系 语言 wen 
Ab REIS nso 
南 索 托 语 st sot 
其 他 南美 印第安 语族 语言 sai 
西班牙 语 es esl/spa 
苏 库 马 语 SUK 
苏 美 尔 语 SUX 
苏丹 语 su sun 
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语 š ISO 639 ISO 639-2 

苏 苏 语 sus 
斯 瓦 西 里 语 SW swa 
FAI ssw 
im HIS Sv sve/swe 
叙利亚 语 syr 
JH 16 tl tgl 
营 希 提 语 tah 
党 吉 克 语 tg tgk 
营 马 舍 克 语 tmh 
泰 米尔 语 ta tam 
党 塔 尔 语 tt tat 
RA EA te tel 
特 列 纳 语 ter 
泰语 th tha 
藏 语 bo bod/tib 592 
提 格 雷 语 tig 
提 格 里 尼 亚 语 ti tir 
WEE tem 
蒂 夫 语 tiv 
特 林 吉 特 语 tli 
汤加 语 (Je liye) to tog 
东 加 语 (汤加 岛 ) ton 
TEES tru 
钦 西 安 语 tsi 
宗 加 语 ts tso 
茨 瓦 纳 语 tn tsn 
奇 图 姆 布 卡 语 tum 
土耳其 语 tr tur 
奥斯曼 土耳其 语 (25 1500 4E — 1928 年 ) ota 
土库曼 语 tk tuk 
图 瓦 语 tyv 
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语 言 
— ISO 639 ISO 639-2 
乌 加 里 特 语 l N 
维吾尔 语 网 
乌克兰 语 M 
翁 本 杜 语 i E 
未 确定 的 语言 
乌 尔 都 语 u 
BUM US N N 
— uz uzb 
文 达 语 i 
越南 语 i 
沃 拉 普 克 语 Í Ë 
Ui vus i N 
瓦 卡 什 语系 语言 
瓦 拉 英语 x 
瓦 赖 语 
LASS " 
威尔士 语 ú 
Win cy cym/wel 
Fes : i 
雅 库 特 语 i h 
Dar i 
雅 浦 语 " 
农 地 语 id 
约 鲁 巴 语 . ñ 
BEDRE TEVE i i 
哲 纳 加 语 E 
壮 语 
祖 鲁 语 ^ 本 
祖 尼 语 " 
zun 
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G.5 ISO 3166 国 家 代码 


表 G-3 1SO 3166 国 家 代码 



























































E EX R B 
阿富汗 AF 
阿尔 巴 尼 亚 AL 
阿尔 及 利 亚 DZ 
美 属 萨摩 亚 AS 
安道 尔 AD 
安哥拉 AO 
安 圭 拉 AI 
南极 洲 AQ 
安 提 瓜 和 巴 布 达 AG 
阿根廷 AR 
亚美尼亚 AM 
阿 鲁 巴 AW 
澳大利亚 AU 
奥地利 AT 
阿塞拜疆 AZ 
巴哈马 BS 
巴林 BH 
x Andr BD 
巴巴 多 斯 BB 

俄罗斯 BY 
比利时 BE 
HFIZ BZ 
NF BJ 
百慕大 BM 
不 丹 BT 
玻利维亚 BO 
波 黑 BA 
dX PLM BW 
布 韦 岛 BV 
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595 











巴西 

英 属 印度 洋 领地 
ES 
保加利亚 
布 基 纳 法 索 








H 


布隆迪 









































中 
3E E, 

















UE 〈 金 共和 国 ) 
库 克 群岛 
哥斯达黎加 
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( 续 ) 










































































E R Rt m 

多 米 尼 加 共和 国 DO 
东帝汶 TP 
厄瓜多尔 EC 
埃及 EG 
萨尔瓦多 SV 
赤道 几内亚 GQ 
厄立特里亚 ER 
爱沙尼亚 EE 
埃塞俄比亚 ET 
福 克 兰 群岛 (马尔 维 纳 斯 ) FK 
法 罗 群 岛 FO 
斐济 群岛 FJ 

芬兰 FI 

法 国 FR 
法 属 圭 亚 那 GF 
法 属 波利尼西亚 PF 

法 国 南部 领地 TF 
JI GA 
bi Ebo GM 
格鲁吉亚 GE 
德国 DE 
加 纳 GH 
直布罗陀 GI 

希腊 GR 
格陵兰 GL 
格林 纳 达 GD 
瓜 德 罗 普 GP 
关岛 GU 
危地马拉 GT 
几内亚 GN 
几内亚 比 绍 GW 
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圭亚那 GY 




























































































596 海地 HT 
赫 德 岛 和 麦克 唐 纳 和 群岛 HM 
ss |x] VA 
洪都拉斯 HN 
匈牙利 HU 
冰岛 IS 
印度 IN 
印度 尼 西 亚 ID 
PB (伊斯兰 共和 国 ) IR 
伊拉克 IQ 
爱尔兰 IE 
以 色 列 IL 
意大利 IT 
牙买加 JM 
日 本 JP 
约旦 JO 
哈萨克 斯 坦 KZ 
肯尼亚 KE 
基里巴斯 KI 
朝鲜 (民主 主义 人 民 共 和 国 ) KP 
韩国 《共和国 ) KR 
科威特 KW 
吉尔 吉 斯 斯 坦 KG 
老挝 人 民 民 主 共 和 国 LA 
拉 脱 维 ; LV 
黎巴嫩 LB 
莱索托 LS 
利 比 里 ， LR 
阿拉 伯 利 比 亚 民 众 国 LY 
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( 续 ) 
















































































E R Rt m 
列支敦士登 LI 
立陶宛 LT 
卢森堡 LU 
马其顿 〈 前 南斯拉夫 共和 国 ) MK 
马达 加 斯 加 MG 
马 拉 维 MW 
马来西亚 MY 
马尔 代 夫 MV 
马里 ML 
马耳他 MT 
马绍尔 群岛 MH 
马 提 尼克 MQ 
毛里 塔 尼 亚 MR 
毛里 求 斯 MU 
马 约 特 YT 
墨西哥 MX 
密 克 罗 尼 西亚 (联邦 ) FM 
摩尔 多 瓦 (共和 国 ) MD 
摩纳哥 MC 
蒙古 国 MN 
蒙 塞 拉 特 岛 MS 
摩洛哥 MA 
莫桑比克 MZ 
缅甸 MM 
纳米 比 亚 NA 
TREE NR 
尼泊尔 NP 
荷兰 NL 
荷 属 安 的 列 斯 AN 
新 喀 里 多 尼 亚 NC 
新 西 兰 NZ 
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尼加拉瓜 
尼日尔 
尼日利亚 
纽 埃 

诺 福 克 岛 

北 马 里 亚 那 群岛 
挪威 
阿曼 
巴 基 斯 
nos 
巴勒斯坦 领土 (被 占 ) 


巴拿马 























= 
































LIP 
波多 黎 各 
卡塔尔 
留 尼 旺 
罗马 尼 ; 
俄罗斯 
卢旺达 
圣 赫 勒 拿 

圣 基 斯 和 尼 维 斯 
FAm 
圣 皮 埃 尔 和 密 克 隆 

圣文森特 和 格林 纳 丁 斯 
U^ EE 
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( 续 ) 


































































































E R R 8 
圣马力诺 SM 
圣 多 美和 普 林 西 比 ST 
沙特 阿拉 伯 SA 
塞内加尔 SN 
塞 舌 尔 SC 
塞拉利昂 SL 
新 加 坡 SG 
斯 治 伐 克 SK 
斯 治文 尼 亚 SI 
所 罗 门 群岛 SB 
索马里 SO 
南非 ZA 
南 乔治 亚 岛 和 南 桑 威 奇 群 岛 GS 
西班牙 ES 
斯 里 兰 卡 LK 
苏丹 SD 
苏里南 SR 
斯 瓦尔 巴 群 品 和 扬 马 延 岛 SJ 
斯 威 士 兰 SZ 
iij L SE 
mE CH 
阿拉 伯 叙 利 亚 共 和 国 SY 
洪 吉 克 斯 坦 TJ 
H 38 Je E (联合 共和 国 ) TZ 
泰国 TH 
多 哥 TG 
托 克 劳 TK 
汤加 TO 
特 立 尼 达 和 多 巴 哥 TT 
突尼斯 TN 
土耳其 TR 
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000 








(5X) 






























































国 家 R B 
土库曼 斯 坦 TM 
特 克 斯 和 凯 科斯 群岛 TC 
图 瓦 卢 TV 
乌干达 UG 
乌克兰 UA 
阿拉 伯 联 合 酋长 国 AE 
英国 GB 
美国 US 
美国 本 土 外 小 岛屿 UM 
Bs UY 
乌兹别克 斯 坦 UZ 
瓦努阿图 VU 
委内瑞拉 VE 
越南 VN 
维尔 京 群岛 CER) VG 
维尔 京 群岛 CER) VI 
瓦 利 斯 和 富 图 纳 WF 
西 撒哈拉 EH 
也 门 YE 
南斯拉夫 YU 
TELES ZM 

G.6 语言 管理 组 织 
。 ISO 639 指定 了 一 个 向 ISO 639 的 语言 列表 中 进行 添加 或 者 对 其 进行 修改 的 维护 


机 构 。 此 机 构 为 : 


International Information Centre for Terminology (Infoterm， 国 际 术语 信息 中 心 ) 


P.O. Box 130 
A-1021 Wien 


Austria 


电话 : +43 1 26 75 35 分 机 号 : 312 


传真 : +43 1 216 


32 72 
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ISO 639-2 指定 了 一 个 向 ISO 639-2 的 语言 列表 中 进行 添加 或 者 对 其 进行 修改 的 
维护 机 构 。 此 机 构 为 : 

Library of Congress (美国 国会 图 书馆 ) 

Network Development and MARC Standards Office (网 络 开 发 与 MARC 标准 办 公 室 ) 
Washington, D.C. 20540 

USA 

电话 : +1 202 707 6237 

传真 : +1 202 707 0115 

URL: http://www.loc.gov/standards/iso639-2/ 

ISO 3166 (国家 代码 ) 的 维护 机 构 为 : 

ISO 3166 Maintenance Agency Secretariat ( ISO 3166 维护 机 构 秘书 处 ) 

c/o DIN Deutsches Institut fuer Normung ( c/o DIN 德国 标准 化 研究 所 ) 
Burggrafenstrasse 6 

Postfach 1107 

D-10787 Berlin 

Germany 

电话 : +49 30 26 01 320 

传真 : 449 3026 01231 

URL: http://www.din.de/gremien/nas/nabd/iso3166ma/ 
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本 附录 描述 了 由 IANA 维护 的 MIME 字符 集注 册 表 。 表 H-1 给 出 了 注册 表 中 字符 集 


的 格式 化 表格 。 


ra Ai 
H.1 MIME 字符 集注 册 表 
MIME 字符 集 标记 是 由 IANA (http://www.iana.org/numbers.htm) 注册 的 。 
注册 表 是 各 项 记录 的 平面 文件 文本 数据 库 。 每 条 记录 中 都 包含 一 个 字符 集 名 称 、 
考 引 用 、 唯 一 的 MIB 号 、 一 段 资源 描述 和 别名 列表 。 E 0 
“首选 MIME 2”, 
下 面 是 US-ASCII 的 记录 : 
Name: ANSI X3.4-1968 KXS2]^ 
MIBenum: 3 
Source: ECMA registry 
Alias: iso-ir-6 
Alias: ANSI X3.4-1986 
Alias: ISO 646.irv:1991 
Alias: ASCII 
Alias: ISO646-US 
A 
A 
A 


[RFC1345, 


lias: US-ASCII 
lias: us 

lias: IBM367 
Cp367 
CSASCII 


(preferred MIME name) 





Alias: 
Alias: 


RFC 2978 (http://www.ietf.org/rfc/rfc2978.txt). 记录 了 通过 IANA 注册 字符 集 的 过 程 。 


H.2 首选 MIME 名 


在 编写 本 书 时 已 注册 的 235 个 字符 集中 ， 只 有 20 个 包含 了 “首选 MIME 名 ”， 
子 邮件 和 Web 应 用 程序 使 用 的 常见 字符 集 。 其 中 包括 : 


即 电 












































Big5 EUC-JP EUC-KR 
GB2312 ISO-2022-JP ISO-2022-JP-2 
ISO-2022-KR ISO-8859-1 ISO-8859-2 
ISO-8859-3 ISO-8859-4 ISO-8859-5 
ISO-8859-6 ISO-8859-7 ISO-8859-8 
ISO-8859-9 ISO-8859-10 KOIS-R 
Shift-JIS US-ASCII 

642 | 附录 HH 


H.3 已 注册 字符 集 
K H-1 列 出 了 2001 年 3 月 字符 集注 册 表 的 内 容 。 更 多 与 此 表 内 容 有 关 的 信息 请 直 
接 参 阅 http://www.iana.org。 


表 H-1 
字符 集 标记 
US-ASCII 


ISO-10646-UTF-1 


ISO. 646.basic:1983 
INVARIANT 


ISO. 646.irv:1983 


BS 4730 


NATS-SEFI 
NATS-SEFI-ADD 
NATS-DANO 
NATS-DANO-ADD 
SEN 850200 B 


SEN 850200 C 


KS C 5601-1987 


ISO-2022-KR 


EUC-KR 





IANA MIME 字 符 集 标记 


» 名 


ANSI X3.4-1968, iso-ir-6, 
ANSI X3.4-1986, ISO. 646. 
irv:1991, ASCII, ISO646-US, 
us, IBM367, cp367, csASCH 


csISO10646UTFI 


ref, csISO646basic1983 
csSINVARIANT 


iso-ir-2, irv, 
csISO2IntlRefVersion 


iso-ir-4, ISO646-GB, gb, uk, 
csISOAUnitedKingdom 


iso-ir-8-1, csNATSSEFI 
iso-ir-8-2, csNATSSEFIADD 
iso-ir-9-1, csNATSDANO 
iso-ir-9-2, csNATSDANOADD 


iso-ir-10, FI, ISO646- 
FI, ISO646-SE, se, 
csISOI0S wedish 


iso-ir-11, ISO646-SE2, se2, 
csISOI1SwedishForNames 


iso-ir-149, KS C 5601- 
1989. KSC 5601, korean, 
csKSC56011987 


csISO2022KR 


csEUCKR 





描 x 
ECMA 注册 表 








通用 传输 格式 (1) 一 一 这 
是 以 ASCIL-7 为 子 集 的 
多 字 节 编码 ; TEES. 
顺序 问题 


ECMA 注册 表 

















ECMA 注册 表 





ECMA 注册 表 





ECMA i] 





ECMA š] 





ECMA iË] 





ECMA i£] 











HO o o sj 





ECMA W} 





ECMA 注册 表 














ECMA 注册 表 


RFC 1557 (还 可 参见 
KS_C_5601-1987) 


RFC 1557 (还 可 参见 
KS. C. 5861-1992) 





参考 文献 


RFC1345. 


RFC1345. 
RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1557, 


RFC1557, 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


Choi 


Choi 
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字符 集 标 记 别 名 描 参考 文献 
ISO-2022-JP csISO2022JP RFC 1468 (还 可 参见 RFC1468、 Murai 
RFC 2237) 

ISO-2022-JP-2 csISO2022JP2 RFC 1554 RFC1554. Ohta 

ISO-2022-CN RFC 1922 RFC1922 

ISO-2022-CN-EXT RFC 1922 RFC1922 

JIS_C6220-1969-jp | JIS_C6220-1969_ iso-ir-13, ECMA 注册 表 RFC1345. KXS2 
katakana. x0201-7. 
csISO13JISC6220jp 

JIS_C6220-1969-ro |iso-ir-14, jp. ISO646-JP. ECMA 注册 表 RFC1345. KXS2 
csISO14JISC6220ro 

IT iso-ir-15, ISO646-IT, ECMA 注册 表 RFC1345, KXS2 
csISO15Italian 

PT iso-ir-16、ISO646-PT、 ECMA 注册 表 RFC1345, KXS2 
csISOl16Portuguese 

ES iso-ir-17, ISO646-ES, ECMA 注册 表 RFC1345. KXS2 
csISO17Spanish 

greek7-old iso-ir-18, csISOI8Greek7Old ECMA 注册 表 RFC1345. KXS2 

latin-greek iso-ir-19, csISO19LatinGreek ECMA 注册 表 RFC1345. KXS2 

DIN_66003 iso-ir-21, de, ISO646-DE, ECMA 注册 表 RFC1345. KXS2 
csISO21German 

NF Z_62-010_(1973) | iso-ir-25, ISO646-FRI, ECMA 注册 表 RFC1345. KXS2 
csISO25French 

Latin-greek-1 iso-ir-27, csISO27LatinGreek1 ECMA 注册 表 RFC1345, KXS2 

ISO. 5427 iso-ir-37, csISO5427Cyrillic ECMA 注册 表 RFC1345. KXS2 

JIS_C6226-1978 iso-ir-42、csISO42JISC62261978 | ECMA 注册 表 RFC1345. KXS2 

BS_viewdata iso-ir-A7, csISO47BSViewdata ECMA 注册 表 RFC1345. KXS2 

INIS iso-ir-49, csISO49INIS ECMA 注册 表 RFC1345. KXS2 

INIS-8 iso-ir-50, csISOSOINIS8 ECMA 注册 表 RFC1345. KXS2 

INIS-cyrillic iso-ir-51, csISOSIINISCyrillic ECMA 注册 表 RFC1345. KXS2 

ISO_5427:1981 iso-ir-54, ISO5427Cyrillic1981 ECMA 注册 表 RFC1345. KXS2 

ISO. 5428:1980 iso-ir-55, csISO5428Greek ECMA 注册 表 RFC1345. KXS2 

GB_1988-80 iso-ir-57, cn, ISO646-CN, ECMA 注册 表 RFC1345. K5, 
csISO57GB1988 KXS2 
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字符 集 标记 别 名 描 R 参考 文献 

GB_2312-80 iso-ir-58, chinese, ECMA iti RFC1345, KXS2 
csISO58GB231280 

NS 4551-1 iso-ir-60, ISO646-NO, no, ECMA iti RFC1345, KXS2 
csISO60DanishNorwegian, 
csISO60Norwegianl 

NS 4551-2 ISO646-NO2, iso-ir-61, no2, ECMA iti RFC1345, KXS2 
csISO61INorwegian2 

NF Z 62-010 iso-ir-69, ISO646-FR, fr, ECMA iti RFC1345, KXS2 
csISO69French 

videotex-suppl iso-ir-70, csISO70VideotexSuppl | ECMA Ù} RFC1345, KXS2 

PT2 iso-ir-84, ISO646-PT2, ECMA i] RFC1345, KXS2 
csISO84Portuguese2 

ES2 iso-ir-85, ISO646-ES2, ECMA itl RFC1345, KXS2 
csISO85Spanish2 

MSZ 7795.3 iso-ir-86, ISO646-HU, hu, ECMA 注册 RFC1345, KXS2 
csISO86Hungarian 

JIS C6226-1983 iso-ir-87, x0208, JIS X0208- ECMA iti RFC1345, KXS2 
1983, csISOS87JISX0208 

greek7 iso-ir-88, csISO88Greek7 ECMA iti RFC1345, KXS2 

ASMO 449 ISO 9036, arabic7, iso-ir-89, ECMA iti RFC1345, KXS2 
csISO89ASMO449 

iso-ir-90 csISO90 ECMA iti RFC1345, KXS2 

JIS C6229-1984-a iso-ir-01, jp-ocr-a, ECMA iti RFC1345, KXS2 
csISO91JISC62291984a 

JIS C6229-1984-b  |iso-ir-92, ISO646-JP-OCR-B, ECMA i] RFC1345, KXS2 
jp-ocr-b, csISO92JISC62991984b 

JIS C6229-1984-b- |iso-ir-93, jp-ocr-b-add, ECMA i£] RFC1345, KXS2 

add csISO93JIS62291984badd 

JIS_C6229-1984- iso-ir-94, jp-ocr-hand, ECMA ËJ RFC1345. KXS2 

hand csISO94JIS62291984hand 

JIS_C6229-1984- iso-ir-95. jp-ocr-hand-add. ECMA iti RFC1345, KXS2 

hand-add csIS095J1S62291984handadd 

JIS C6229-1984- iso-ir-96, ECMA 注册 RFC1345, KXS2 

kana csISO96JISC62291984kana 

ISO 2033-1983 iso-ir-98, el3b, csISO2033 ECMA itl RFC1345, KXS2 
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字符 集 标 记 别 名 描 述 参考 文献 

ANSI X3.110-1983 | iso-ir-99, CSA, T500-1983, ECMA 注册 表 RFC1345. KXS2 
NAPLPS, csISO99NAPLPS 

ISO-8859-1 ISO. 8859-1:1987, iso-ir- ECMA 注册 表 RFC1345. KXS2 
100, ISO 8859-1, latinl, ll, 
IBM819, CP819, csISOLatinl 

ISO-8859-2 ISO. 8859-2:1987, iso-ir- ECMA 注册 表 RFC1345, KXS2 
101, ISO 8859-2, latin2, 12, 
csISOLatin2 

T.61-7bit iso-ir-102, csISO102T617bit ECMA 注册 表 RFC1345. KXS2 

T.61-8bit T.61, iso-ir-103, ECMA 注册 表 RFC1345. KXS2 
csISO103T618bit 

ISO-8859-3 ISO. 8859-3:1988, iso-ir- ECMA 注册 表 RFC1345, KXS2 
109. ISO 8859-3, latin3, 13, 
csISOLatin3 

ISO-8859-4 ISO. 8859-4:1988, iso-ir- ECMA 注册 表 RFC1345, KXS2 
110, ISO 8859-4, latind, l4, 
csISOLatin4 

ECMA-cyrillic iso-ir-111, ECMA 注册 表 RFC1345. KXS2 
csISO111ECMACyrillic 

CSA_Z243.4-1985-1 | iso-ir-121, ISO646-CA, csa7-1, | ECMA 注册 表 RFC1345, KXS2 
ca, csISOI121Canadianl 

CSA. Z243.4-1985-2 | iso-ir-122, ISO646-CA2, ECMA 注册 表 RFC1345. KXS2 
csa7-2. csISO122Canadian2 

CSA_Z243.4-1985-gr | iso-ir-123、 ECMA 注册 表 RFC1345. KXS2 
csISO123CSAZ24341985gr 

ISO-8859-6 ISO. 8859-6:1987, iso-ir- ECMA 注册 表 RFC1345. KXS2 
127. ISO_8859-6. ECMA- 
114. ASMO-708. arabic. 
csISOLatinArabic 

ISO_8859-6-E csISO88596E RFC 1556 RFC1556, IANA 

ISO_8859-6-I csISO88596I RFC 1556 RFC1556, IANA 

ISO-8859-7 ISO. 8859-7:1987, iso-ir-126, ECMA 注册 表 RFC1947. 
ISO 8859-7, ELOT. 928, RFC1345, KXS2 
ECMA-118, greek, greek8, 
csISOLatinGreek 

T.101-G2 iso-ir-128, csISO128T101G2 ECMA 注册 表 RFC1345. KXS2 

ISO-8859-8 ISO. 8859-8:1988, iso-ir- ECMA 注册 表 RFC1345. KXS2 


138, ISO 8859-8, hebrew, 
csISOLatinHebrew 
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( 续 ) 










































































字符 集 标 记 别 名 描 述 参考 文献 
ISO_8859-8-E csISO88598E RFC 1556 RFC1556. 
Nussbacher 
ISO_8859-8-I csISO88598I RFC 1556 RFCI1556, 
Nussbacher 

CSN. 369103 iso-ir-139, csISO139CSN369103 | ECMA 注册 表 RFC1345, KXS2 

JUS LB1.002 iso-ir-141, ISO646-YU, js. yu, | ECMA 注册 表 RFCI345, KXS2 
csISO141JUSIB1002 

ISO. 6937-2-add iso-ir-142, csISOTextComm ECMA 注册 表 及 ISO RFC1345, KXS2 

6937-2:1983 

IEC_P27-1 iso-ir-143, csISO143IECP271 ECMA 注册 表 RFC1345. KXS2 

ISO-8859-5 ISO. 8859-5:1988, iso-ir- ECMA 注册 表 RFC1345, KXS2 
144, ISO. 8859-5, cyrillic, 
csISOLatinCyrillic 

JUS LB1.003-serb |iso-ir-146, serbian, ECMA 注册 表 RFC1345. KXS2 
csISO146Serbian 

JUS LB1.003-mac | macedonian, iso-ir-147, ECMA 注册 表 RFC1345, KXS2 
csISO147Macedonian 

ISO-8859-9 ISO. 8859-9:1989, iso-ir- ECMA 注册 表 RFC1345, KXS2 
148, ISO_8859-9. latin5, 15. 
csISOLatin5 

greek-ccitt iso-ir-150. csISO150. ECMA 注册 表 RFC1345. KXS2 
csISO150GreekCCITT 

NC_NC00-10:81 cuba, iso-ir-151, ISO646-CU. ECMA 注册 表 RFC1345. KXS2 
csISO151Cuba 

ISO_6937-2-25 iso-ir-152, csISO6937Add ECMA 注册 表 RFC1345, KXS2 

GOST_19768-74 ST SEV. 358-88, iso-ir-153, ECMA 注册 表 RFC1345. KXS2 
csISO153GOST1976874 

ISO_8859-supp iso-ir-154, latinl-2-5, ECMA 注册 表 RFC1345. KXS2 
csISO8859Supp 

ISO_10367-box iso-ir-155, csISO10367Box ECMA 注册 表 RFC1345. KXS2 

ISO-8859-10 iso-ir-157, 16, ISO_8859- ECMA 注册 表 RFC1345, KXS2 
10:1992_ csISOLatin6. latin6 

latin-lap lap, iso-ir-158, csISO158Lap ECMA 注册 表 RFCI345, KXS2 

JIS. X0212-1990 x0212, iso-ir-159, ECMA 注册 表 RFC1345. KXS2 





csISO159JISX02121990 
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字符 集 标 记 别 名 d xh 参考 文献 
DS_2089 DS2089, ISO646-DK, dk, 丹麦 标准 ，DS 2089, RFC1345. KXS2 
csISO646Danish 1974 年 2 H 
us-dk csUSDK RFC1345. KXS2 
dk-us csDKUS RFC1345. KXS2 
JIS_X0201 X0201. csHalfWidthKatakana JIS X 0201-1976 一 一 只 有 | RFCI345, KXS2 
1 个 字 节 ， 等 价 于 (5 
ASCII 类 似 的 ) JIS/Roman 
加 上 8 位 半角 片 假名 
KSC5636 ISO646-KR, csKSC5636 RFC1345. KXS2 


ISO-10646-UCS-2 


ISO-10646-UCS-4 


csUnicode 


csUCS4 








2 个 8 位 字 节 的 基本 多 语 
种 平台 ， 又 名 Unicode 一 一 
这 需要 指定 网 络 字 节 序 。 
标准 中 并 未 对 其 进行 详 
细 说 明 ( 它 是 个 16 位 的 
整数 空间 ) 





完整 的 代码 空间 〈 与 字 节 
序 的 注释 相同 ， 是 31 位 
的 数字 ) 




















DEC-MCS dec. csDECMCS VAX/VMS 用 户 手 册 ， 订 | RFC1345、KXS2 
Hi. ALY517A-TE，1986 
年 4 月 
hp-roman8 roman8, r8, csHPRoman8 LaserJet IIP 打印 机 用 HP-PCL5, 
户 手 册 ， 惠 普 部 件 纺 RFC1345、KXS2 
号 33471-90901， 惠 普 ， 
1989 年 6 月 
macintosh mac. csMacintosh Unicode 标准 v1.0, ISBN | RFC1345. KXS2 
号 0201567881, 1991 年 
10 月 
IBM037 cp037. ebcdic-cp-us. ebcdic-cp- | IBM NLS RM 第 二 卷 RFC1345. KXS2 
ca, ebcdic-cp-wt. ebcdic-cp-nl, | SE09-8002-01, 1990 年 
csIBMO37 3 H 
IBM038 EBCDIC-INT, cp038, IBM 3174 FRZ X | RFCI345, KXS2 
csIBM038 Hk, GA27-3831-02, 1990 
年 3 月 
648 | 附录 H 


( 续 ) 














字符 集 标记 别 名 JE j 参考 文献 
IBM273 CP273、csIBM273 IBM NLS RM 第 二 卷 RFC1345, KXS2 
SE09-8002-01, 1990 #E 
3 月 
IBM274 EBCDIC-BE、CP274、csIBM274 | IBM 3174 字符 集 参 考 RFC1345. KXS2 
文献 , GA27-3831-02， 
1990 年 3 月 
IBM275 EBCDIC-BR、cp275、csIBM275 | IBM NLS RM 第 二 卷 RFC1345. KXS2 
SE09-8002-01, 1990 年 
3 月 
IBM277 EBCDIC-CP-DK, EBCDIC-CP- | IBM NLS RM 第 二 卷 RFC1345, KXS2 
NO. csIBM277 SE09-8002-01, 1990 年 
3 月 
IBM278 CP278、ebcdic-cp-fi、ebcdic-cp- | IBM NLS RM 第 二 卷 RFC1345. KXS2 
se. csIBM278 SE09-8002-01, 1990 年 
3 月 
IBM280 CP280、ebcdic-cp-it、csIBM280 | IBMNLS RM 第 二 卷 RFC1345, KXS2 
SE09-8002-01, 1990 年 
3 月 
IBM281 EBCDIC-JP-E、cp281、 IBM 3174 FERH RFC1345, KXS2 
csIBM281 文献 , GA27-3831-02, 
1990 年 3 月 
IBM284 CP284、ebcdic-cp-es、csIBM284 | IBM NLS RM 第 二 卷 RFC1345, KXS2 
SE09-8002-01, 1990 年 
3 H 
IBM285 CP285, ebcdic-cp-gb, csIBM285 | IBM NLS RM 第 二 卷 RFC1345, KXS2 
SE09-8002-01, 1990 年 
3 H 
IBM290 cp290、EBCDIC-JP-kana、 IBM 3174 FERH RFC1345. KXS2 
csIBM290 文献 、GA27-3831-02， 
1990 年 3 月 
IBM297 cp297、ebcdic-cp-fr、csIBM297 | IBM NLS RM 第 二 卷 RFC1345. KXS2 
SE09-8002-01, 1990 年 
3 月 
IBM420 cp420. ebcdic-cp-arl, csIBM420 | IBM NLS RM 第 二 卷 RFC1345, KXS2 








SE09-8002-01, 1990 年 
3 H, IBMNLS RM p 
11-11 
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# i 


(5X) 


参考 文献 





IBM423 


IBM424 


IBM437 


IBM500 


IBM775 


IBM850 


IBM851 


IBM852 


IBM855 


IBM857 


IBM860 


IBM861 


cp423, ebcdic-cp-gr, csIBM423 


cp424, ebcdic-cp-he, csIBM424 


cp437, 437. csPC8CodePage437 


CP500, ebcdic-cp-be, ebcdic- 


cp-ch, csIBM500 


cp775. csPC775Baltic 


cp850, 850, 


csPC850Multilingual 


cp851, 851, csIBMS851 


cp852, 852. csPCp852 


cp855, 855, csIBM855 


cp857, 857, csIBM857 


cp860, 860, csIBM860 


cp861, 861, cp-is, csIBM861 





IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


HP PCL 5 Comparison 
Guide (P/N 5021-0329) 
B-13 Ji, 1996 年 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


IBM NLS RM 第 二 卷 


SE09-8002-01, 1990 年 





3 H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01，1990 年 
3 月 





RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


HP-PCL5 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 
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( 续 ) 


参考 文献 





IBM862 


IBM863 


IBM864 


IBM865 


IBM866 


IBM868 


IBM869 


IBM870 


IBM871 


IBM880 


IBM891 


IBM903 





cp862. 862. 


csPC862LatinHebrew 


cp863. 863. csIBM863 


cp864. csIBM864 


cp865. 865. csIBM865 


cp866. 866. csIBM866 


CP868, cp-ar, csIBM868 


cp869, 869. cp-gr, csIBM869 


CP870, ebcdic-cp-roece, ebcdic- 


cp-yu, csIBM870 


CP871, ebcdic-cp-is, csIBMS871 


cp880, EBCDIC-Cyrillic, 


csIBM880 


cp891, csIBM891 


cp903, csIBM903 





IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 月 


IBM 键盘 布局 和 代码 页 ， 
PN 07G4586，1991 年 6 
月 


IBM 键盘 布局 和 代码 页 ， 
PN 07G4586, 1991 年 6 
月 


IBM DOS 3.3 参考 文献 
(删节 版 ) 94X9575, 
1987 年 2 月 





IBM NLDG 第 二 卷 
SE09-8002-03, 1994 年 
8 H 





IBM NLS RM 第 二 卷 
SE09-8002-01，1990 年 
3 月 


IBM 键盘 布局 和 代码 页 ， 
PN 07G4586, 1991 年 6 
月 


IBM NLS RM 第 二 卷 
SE09-8002-01，1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01，1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3H 


IBM NLS RM 第 二 卷 
SE09-8002-01, 1990 年 
3 月 


IBM NLS RM 第 二 卷 
SE09-8002-01，1990 年 
3 月 





RFC1345 


RFC1345. 


RFC1345. 


RFC1345. 


Pond 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


RFC1345. 


. KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 


KXS2 
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字符 集 标记 别 ”名 描 述 参考 文献 
IBM904 cp904、904、csIBBM904 IBM NLS RM 第 二 卷 RFC1345、KXS2 
SE09-8002-01，1990 年 
3 H 
IBM905 CP905, ebcdic-cp-tr, IBM 3174 *E THES 7S RFCI345, KXS2 
csIBM905 文献 、GA27-3831-02， 
1990 £3 月 
IBM918 CP918、ebcdic-cp-ar2、 IBM NLS RM 第 二 卷 RFC1345、KXS2 
csIBM918 SE09-8002-01，1990 年 
3 月 
IBM1026 CP1026, csIBM1026 IBM NLS RM 第 二 卷 RFC1345、KXS2 


EBCDIC-AT-DE cSIBMEBCDICATDE 


EBCDIC-AT-DE-A | csEBCDICATDEA 


EBCDIC-CA-FR csEBCDICCAFR 


EBCDIC-DK-NO csEBCDICDKNO 


EBCDIC-DK-NO-A | csEBCDICDKNOA 


EBCDIC-FI-SE csEBCDICFISE 


EBCDIC-FI-SE-A csEBCDICFISEA 


EBCDIC-FR csEBCDICFR 





SE09-8002-01, 1990 年 
3 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9, 1987 Æ 4 H 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9, 1987 年 4 月 





IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9, 1987 Æ 4 H 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 





IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9, 1987 Æ 4 H 


IBM 3270 字符 集 参 考 
文献 第 10 Æ, GA27- 
2837-9, 1987 4E. 4 H 





RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 


RFC1345, KXS2 
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字符 集 标 记 


fü g 


( 续 ) 


参考 文献 





EBCDIC-IT 


EBCDIC-PT 


EBCDIC-ES 


EBCDIC-ES-A 


EBCDIC-ES-S 


EBCDIC-UK 


EBCDIC-US 


UNKNOWN-8BIT 


MNEMONIC 


MNEM 


VISCII 
VIQR 


KOI8-R 


KOI8-U 


IBM00858 





csEBCDICIT 


csEBCDICES 


csEBCDICESA 


csEBCDICESS 


csEBCDICUK 


csEBCDICUS 


csUnknown8BiT 


csMnemonic 


csMnem 


csVISCII 
csVIQR 


csKOIS8R 


CCSIDO00858, CP00858, PC- 


Multilingual-850-ceuro 





IBM 3270 字符 集 参考 
文献 第 10 章 ，GA27- 
2837-9, 1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9, 1987 年 4 月 


IBM 3270 字符 集 参考 
文献 第 10 章 ，GA27- 
2837-9, 1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 





IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 


IBM 3270 字符 集 参 考 
文献 第 10 章 ，GA27- 
2837-9，1987 年 4 月 





RFC 1345, 也 称 作 “mne- 


monic+ascii+38” 


RFC 1345, 也 称 作 “mne- 


monic+ascii+ 8200” 
RFC 1456 
RFC 1456 


RFC 1489, łk F GOST- 
19768-74, ISO-6937/8. 
INIS-Cyrillic, ISO-5427 


RFC 2319 


IBM (参见 .../assignments/ 
character-set-info/IBM00858) 
[Mahdi] 





RFC1345. KXS2 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1428 


RFC1345. KXS2 


RFC1345. KXS2 


RFC1456 
RFC1456 


RFC1489 


RFC2319 
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参考 文献 
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IBM00924 


IBM01140 


IBM01141 


IBM01142 


IBM01143 


IBM01144 


IBM01145 


IBM01146 


IBM01147 


IBM01148 


IBM01149 


Big5-HKSCS 


CCSID00924. CP00924. ebcdic- 


Latin9—euro 


CCSID01140, CP01140, ebcdic- 


us-37--euro 


CCSID01141, CP01141, ebcdic- 
de-273-euro 


CCSID01142, CP01142, ebcdic- 
dk-277-euro, ebcdic-no-277-euro 


CCSID01143, CP01143, ebcdic- 
fi-278*euro, ebcdic-se-278-«euro 


CCSID01144, CP01144, ebcdic- 
it-280--euro 


CCSID01145, CP01145, ebcdic- 


es-284-reuro 


CCSID01146, CP01146, ebcdic- 
gb-285«euro 


CCSID01147, CP01147, ebcdic- 
fr-297--euro 


CCSID01148, CP01148, ebcdic- 


international-500--euro 


CCSID01149, CP01149, ebcdic- 
is-87 1+euro 


None 





IBM (参见 .../assignments/ 
character-set-info/IBM 
00924) [Mahdi] 


IBM (参见 .assignments/ 
character-set-info/IBM 
01140) [Mahdi] 


IBM (XM ../assignments/ 
character-set-info/IBM 
01141) [Mahdi] 


IBM (参见 ../assignments/ 
character-set-info/IBM 
01142) [Mahdi] 


IBM (参见 .../assignments/ 
character-set-info/IBM 
01143) [Mahdi] 


IBM (参见 ../assignments/ 
character-set-info/IBM 
01144) [Mahdi] 


IBM (ZW .../assignments/ 
character-set-info/IBM 
01145) [Mahdi] 





IBM (参见 .../assignments/ 
character-set-info/IBM 
01146) [Mahdi] 


IBM (参见 ../assignments/ 
character-set-info/IBM 
01147) [Mahdi] 


IBM (ZW .../assignments/ 
character-set-info/IBM 
01148) [Mahdi] 





IBM (参见 .../assignments/ 
character-set-info/IBM 
01149) [Mahdi] 


(参见 ../assignments/ 
character-set-info/Big5- 
HKSCS) [Yick] 
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字符 集 标 记 别 名 Jj 述 参考 文献 
UNICODE-1-1 csUnicodell RFC 1641 RFC1641 
SCSU None SCSU (参见 .Jassignments/ 
character-set-info/SCSU) 
[Scherer] 
UTF-7 None RFC 2152 RFC2152 
UTF-16BE None RFC 2781 RFC2781 
UTF-16LE None RFC 2781 RFC2781 
UTF-16 None RFC 2781 RFC2781 
UNICODE-I1-1- csUnicodellUTF7 RFC 1642 RFC1642 
UTF-7 
UTF-8 RFC 2279 RFC2279 
iso-8859-13 ISO (参见 ...assignments/ 
character-set-info/iso- 
8859-13) [Tumasonis] 
iso-8859-14 iso-ir-199. ISO 8859-14:1998, ISO (参见 ...assignments/ 
ISO 8859-14, latin8, iso-celtic, | character-set-info/iso- 
18 8859-14) [Simonsen] 
ISO-8859-15 ISO_8859-15 ISO 
JIS_Encoding csJISEncoding JIS X 0202-1991; 使 用 ISO 


Shift_JIS 





MS Kanji, csShiftJIS 





2022 转 义 序列 来 切换 代 
码 集 ， 如 JIS X 0202-1991 
所 述 

这 个 字符 集 是 csHalf Wi- 
dthKatakana 的 扩展 一 一 
它 在 JIS X 0208 中 添加 
了 图 像 字符 。CCS 是 JIS 
X0201:1997 和 JIS X0208: 
1997。JISX0208: 1997 的 
附录 1 给 出 了 完整 的 定 
义 。 可 以 将 此 字符 集 用 于 
顶级 媒体 类 型 “text” 
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(5X) 





字符 集 标记 


参考 文献 





EUC-JP 


Extended_UNIX_ 
Code Fixed . 
Width for Japanese 


ISO-10646-UCS- 


Basic 


ISO-10646- 
Unicode-Latinl 


Extended UNIX. Code . 


Packed Format for Japanese, 


csEUCPkdFEmtJapanese 


csEUCFixWidJapanese 


csUnicodeASCII 


csUnicodeLatinl, ISO-10646 











H OSF, UNIX 国 际 和 
UNIX 系统 太平 洋 实验 室 
制定 的 标准 。 使 用 ISO 
2022 规则 来 挑选 代码 集 。 
代码 集 0; US-ASCII ( 单 
7 位 的 字 节 集 ) ， 代 码 集 
1: JIS X0208-1990 ( 双 8 
位 的 字 节 集 )， 这 两 个 字 
节 都 限制 在 A0 ~ FF 之 
间 ， 代 码 集 2: 半角 片 假 
名 ( 单 7 位 的 字 节 集 ) 需 
要 将 SS2 作为 字符 前 绥 ; 
代码 集 3: JIS X0212-1990 
双 7 位 的 字 节 集 )， 两 个 
字 节 都 要 限制 在 A0 ~ FF 
之 间 ， 需 要 将 SS3 作为 字 
符 前 级 


在 日 本 使 用 。 每 个 字符 都 
是 2 个 字 节 。 代 码 集 0: 
US-ASCII ( 单 7 位 的 字 节 
集 )， 第 一 个 字 节 00， 第 
二 个 字 节 20 ~ 7E; 代码 
集 1: JIS X0208-1990 CX 
7 位 的 字 节 集 )， 两 个 字 市 
都 限制 在 AO ~ FF Z ll; 
代码 集 2: 半角 片 假名 
( 单 7 位 的 字 节 集 )， 第 一 
个 字 节 00， 第 二 个 字 节 
A0 ~ FF; 代码 集 3: JIS 
X0212-1990 ( 双 7 位 字 节 
集 )， 第 一 个 字 节 限制 在 
A0 — FF 之 间 ， 第 二 个 字 
节 限 制 在 21 ~ 7E 之 间 

Unicode 的 ASCI 子 集 。 基 


本 拉丁 字母 为 集 1。 参 见 
ISO 10646， 附 录 A 



















































































Unicode 的 ISO Latin-1 
子 集 。 基 本 拉丁 字母 和 
Latin-1。 增 补 为 集 1 及 
Æ 2. Z JL ISO 10646, 
附录 A 以 及 RFC 1815 
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( 续 ) 




































































字符 集 标记 别 名 描 jË 参考 文献 

ISO-10646-J-1 ISO 10646 H ië, ZW 

RFC 1815 
ISO-Unicode-IBM- | csUnicodeIBM1261 IBM Latin-2, -3, -5, 
1261 扩展 表示 集 ，GCSGID: 

1261 
ISO-Unicode-IBM- | csUnidoceIBM1268 IBM Latin-4 扩展 表示 和 集 ， 
1268 GCSGID: 1268 
ISO-Unicode-IBM- | csUnicodeIBM1276 IBM 西里 尔 希 腊 语 扩展 表 
1276 示 集 , GCSGID: 1276 
ISO-Unicode-IBM- | csUnicodeIBM1264 IBM 阿拉 伯 语 扩展 表示 
1264 集 , GCSGID: 1264 
ISO-Unicode-IBM- | csUnicodeIBM1265 IBM 希 伯 来 语 扩 展 表 示 
1265 集 , GCSGID: 1265 
ISO-8859-1- csWindows30Latinl 用 于 Windows 3.0 的 扩展 | HP-PCL5 
Windows-3.0-Latin-1 ISO 8859-1 Latin-1。PCL 

符号 集 ID: 9U 
ISO-8859-1- csWindows31Latinl 用 于 Windows 3.1 的 扩展 | HP-PCL5 
Windows-3.1-Latin-1 ISO 8859-1 Latin-1。PCL 

符号 集 ID: 19U 
ISO-8859-2- csWindows31Latin2 用 于 Windows 3.1 的 扩展 | HP-PCLS 
Windows-Latin-2 ISO 8859-2 Latin-2, PCL 

符号 集 ID : 9E 
ISO-8859-9- csWindows31Latin5 用 于 Windows 3.1 的 扩展 | HP-PCL5 
Windows-Latin-5 ISO 8859-9 Latin-5, PCL 

符号 集 ID: 5T 
Adobe-Standard- csAdobeStandardEncoding PostScript 语言 参考 手册 。| Adobe 
Encoding PCL 符号 集 ID: 10J 
Ventura-US csVenturaUS Ventura US-ASCII plus | HP-PCL5 








字符 通常 用 于 出 版 业 ， 比 
如 在 A0 ~ FF 范围 之 间 
的 段落 标记 、 版 权 、 注 
册 、 商 标 、 分 节 、 剑 号 及 
双 剑 号 。PCL 符号 集 ID: 
14J 
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字符 集 标记 别 名 描 xh 参考 文献 
Ventura- csVenturalnternational Ventura International ASCII | HP-PCL5 
International plus 编码 字符 与 Romang8 类 
似 。PCL 符号 集 ID: 13J 
PC8-Danish- csPC8DanishNorwegian 丹麦 挪威 使 用 的 PC 丹麦 | HP-PCL5 
Norwegian 挪威 8 位 PC 集 。PCL 符 
号 集 ID: 11U 
PC8-Turkish csPC8Turkish PC 拉丁 土耳其 。PCL ff | HP-PCL5 
号 集 : 9T 
IBM-Symbols csIBMSymbols 表示 集 ，CPGID: 259 IBM-CIDT 
IBM-Thai csIBMThai 表示 集 ，CPGID: 838 IBM-CIDT 
HP-Legal csHPLegal PCL 5 Comparison Guide, | HP-PCL5 
惠普 ， 惠 普 部 件 编号 5961- 
0510，1992 年 10 月 。 PCL 
符号 集 ID: 1U 
HP-Pi-font csHPPiFont PCL 5 Comparison Guide, | HP-PCL5 
惠普 ， 惠 普 部 件 编号 5961- 
0510，1992 年 10 月 。 PCL 
符号 集 ID: 15U 
HP-Math8 csHPMath8 PCL 5 Comparison Guide, | HP-PCL5 
惠普 ， 惠 普 部 件 编号 5961- 
0510，1992 年 10 月 。 PCL 
符号 集 ID: 8M 
Adobe-Symbol- csHPPSMath PostScript 语言 参考 手册 。| Adobe 
Encoding PCL 符号 集 ID: 5M 
HP-DeskTop csHPDesktop PCL 5 Comparison Guide, | HP-PCL5 
惠普 ， 惠 普 部 件 编号 5961- 
0510, 1992 年 10 H, PCL 
符号 集 ID: 7J 
Ventura-Math csVenturaMath PCL 5 Comparison Guide, | HP-PCL5 
惠普 ， 惠 普 部 件 编号 5961- 
0510，1992 年 10 月 。PCL 
符号 集 ID: 6M 
Microsoft- csMicrosoftPublishing PCL 5 Comparison Guide, | HP-PCL5 


Publishing 








惠普 ， 惠 普 部 件 编号 5961- 
0510, 1992 年 10 J], PCL 
符号 集 ID: 6J 
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字符 集 标记 


别 


名 


fü R 


( 续 ) 
参考 文献 





Windows-31J 


GB2312 


Big5 


windows-1250 


windows-1251 


windows-1252 


windows-1253 


windows-1254 





csWindows31J 


csGB2312 


csBig5 





日 语 版 Windows, iE 
Shift JIS 的 进一步 扩展 ， 
以 包含 NEC 特 殊 字 符 
(E 1347), NEC 选择 的 
IBM 扩 展 ( 第 89 — 92 
行 )、 以 及 IBM 扩展 (第 
115 ~ 119 行 )。CCS 包 
& JIS X0201:1997, JIS 
X0208:1997 和 这 些 扩展 。 
可 将 此 字符 集 用 于 顶级 
媒体 类 型 “text"， 但 用 
途 有 限 ， 或 仅 用 于 特殊 
目的 (参见 RFC 2278), 
PCL 字符 集 ID: 19K 























混合 了 1 字 节 、2 字 节 
集 的 中 华人 民 共 和 国 
(PRC) 汉语 : 20-7E 为 
1 字 节 ASCII; A1-FE 为 
2 字 节 PRC 汉 字 。 参 见 
GB 2312-80。PCL 符 号 
集 ID: 18C 

















中 国 台 湾 省 使 用 的 汉语 
多 字 节 集 。PCL 符号 集 
id: 18T 























微软 (参见 .../character- 
set-info/windows-1250) 


[Lazhintseva] 


微软 ( 参见.../character- 
set-info/windows-1251) 


[Lazhintseva] 


微软 ( 参见.../character- 
set-info/windows-1252) 
[Wendt] 


微软 (参见 .../character- 
set-info/windows-1253) 


[Lazhintseva] 


微软 (参见 .../character- 
set-info/windows-1254) 


[Lazhintseva] 
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字符 集 标 记 


E£ 


(5X) 


参考 文献 





windows-1255 


windows-1256 


windows-1257 


windows-1258 


TIS-620 


HZ-GB-2312 








微软 (参见 ../character- 
set-info/windows-1255) 


[Lazhintseva] 


微软 (参见 ../character- 
set-info/windows-1256) 


[Lazhintseva] 


微软 (参见 .../character- 
set-info/windows-1257) 


[Lazhintseva] 


微软 (参见 .../character- 
set-info/windows-1258) 


[Lazhintseva] 


TISI, Thai Industrial 
Standards Institute ( 泰国 
工业 标准 协会 ) 














RFC 1842, RFC 1843 
[RFC1842, RFCI1843] 





[Tantsetthi] 
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索引 


981 '([füzp) Jojonuoo '(diE dLLH) SPV dLLH 
SII (BEBE OM sdnyooTeurewsoH) oAnooup Uonern8Uuoo sdnyoo'ToureujsoH 
TCI (HG dE M) Sumos (WRX) 10013u9umoop 
ETI (E HER xopupA10]291«1) 9Anoorp uonvinSruoo xspuIAIoloeTG 
66€ '(dj2C Mese) sen deuredA 
00r '(XpBE ASIADIN) 9^D29JIp SAƏIADInIW 
66€ '(EifJSZhl) uonenoSou juojuoo 


OLI *(RRA4E ME q9AA 9uoedy). s1oA198 qəm ouoedy 
LS? (JE pg) Suissoppe 1seoKue 

9cq (Z) siozrurKuoup 

Leb *(3Eac <dozdlITe>) quouropo <dordiTe> 
IIS ‘6ST ‘(JHH MOTIV) sropeou ^o[[y 

61T '(unk) (STAN) sesene 





LIE ‘VSA 
Sor ‘EPI (TEML) (dVdM) unnpos[e AIeAoosTP-3oInossI 
LSY “(GARE SNA E97) paseq-SNG psaoueyue (pE) uonosripsr 
v8 ‘(WH 82N) uuuluos[e s,aISeN 
867 “(YX) uoneonuoune ornəururÁs 
t6Z ~ 167 'CühixsBXOWEP) SU 由 HoSTe JsəSrp Fess 
F8I “IOoloed-JNT 
Loc 'Cgn&z Boe) Su 由 HosTe uoneImndruew-39uelsur 
61 — 681 ' CHCELGUIRCH IRC) uogeImoreo 98e yuournoop 
T6l 一 ¿8I '([(J81626 |C) ssəuusəjj pue Sure 


(FEH) suuuos[e 

61 ‘(HH us8V) SluaBe 

OIS “(qH H 9396Y) siopeou 95 v 

881 “(F£ o 388 CE(3)) əuinəji sseugso1j pue o3e 

961 ~ v61 ‘(HES H-H B du) soyo pue sunoo jq “(8 () SursnisApe 
LET “(敌对 [dl 组) serxoud ssoooe 











9c[ ‘(MY 和 YY) Yonenuamne Axord 
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关于 作者 


David Gourley 是 Endeca 的 首席 技术 官 ， 负 责 Endeca 产品 的 研究 及 开发 。Endeca 
开发 的 因特网 及 内 部 网 络 信息 访问 解决 方案 为 企业 级 数据 的 导航 及 研究 提供 了 一 些 
新 的 方式 。 在 到 Endeca 工作 之 前 ，David 是 Inktomi 基础 工程 组 的 一 员 ， 帮 助 开发 
了 Inktomi 的 因特网 搜索 数据 库 ， 也 是 Inktomi 的 Web 缓存 产品 的 主要 开发 者 。 


David 在 加 州 大 学 伯克利 分 校 获得 了 计算 机 科学 的 学 士 学 位 ， 还 拥有 Web 技术 方面 
的 几 项 专利 。 


Brian Totty 最 近 出 任 了 Inktomi 公司 (这 是 1996 年 他 参与 建立 的 一 家 公司 ) 研发 部 
副 总 裁 ， 在 公司 中 他 负责 Web 缓存 、 流 媒体 及 因特网 搜索 技术 的 研发 工作 。 他 曾 是 
Silicon Graphics 公司 的 一 名 研究 员 ， 为 高 性 能 网 络 和 超级 计算 机 系统 设计 软件 并 对 
其 进行 优化 。 在 那 之 前 ， 他 是 苹果 计算 机 公司 高 级 技术 组 的 一 名 工程 师 。 


Brian Œ FAE PAK Urbana-Champaign 分 校 获 得 了 计算 机 科学 的 博士 学 位 ， 在 
MIT 获得 了 计算 机 科学 及 电子 工程 的 学 士 学 位 ， 以 及 计算 机 系统 研究 的 Organick 
奖 。 他 还 在 加 州 大 学 分 校 开展 并 讲授 了 一 些 屡 获 殊荣 的 因特网 技术 方面 的 课程 。 


Marjorie Sayer 在 Inktomi 公司 负责 编写 Web 缓存 方面 的 软件 。 在 加 州 大 学 伯克利 
分 校 获 得 了 数学 硕士 和 博士 学 位 之 后 ,一直 致力 于 数学 课程 的 改革 。 从 1990 年 开始 
致力 于 能 量 资 源 管理 、 并 行 系统 软件 、 电 话 和 网 络 方面 的 写作 。 











Sailu Reddy 目前 在 Inktomi 公司 负责 舱 入 式 的 性 能 增强 型 HTTP 代理 的 开发 。 
Saiu 从 事 复杂 软件 系统 的 开发 已 经 有 12 年 了 ， 从 1995 年 开始 深入 Web 架构 的 研 
发 工作 。 他 是 Netscape 第 一 台 Web 服务 器 、Web 代理 产品 ， 以 及 后 面 几 代 产 品 的 
核心 工程 师 。 他 具备 HTTP 应 用 程序 、 数 据 压缩 技术 、 数 据 库 引 擎 以 及 合作 管理 等 
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方面 的 技术 经 验 。Sailu 在 亚 里 桑 那 大 学 获得 了 信息 系统 的 硕士 学 位 并 握 有 Web 技 
术 方 面 的 多 项 专利 。 


Anshu Aggarwal 是 Inktomi 公司 的 工程 总 监 。 他 管理 Inktomi 公司 Web 缓存 产品 
的 协议 处 理工 程 组 ， 从 1997 年 就 开始 参与 mktomi 的 Web 技术 设计 工作 。Anshu 
在 科罗拉多 大 学 Boulder 分 校 获 得 了 计算 机 科学 的 硕士 和 博士 学 位 ， 从 事 分 布 式 多 
处 理 器 的 内 存 一 致 性 技术 研究 。 他 还 拥有 电子 工程 的 硕士 和 学 士 学 位 。Anshu 撰写 
了 多 篇 技术 论文 ， 还 拥有 两 项 专利 。 
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本 书 的 封面 设计 得 益 于 多 方 的 参与 ， 来 自 于 读者 意见 、 我 们 自己 的 揣摩 以 及 各 种 发 
行 渠 道 的 反馈 ， 共 同 的 努力 使 它 变 得 与 众 不 同 ， 既 体现 出 我 们 诠释 技术 话题 的 独特 
手法 ， 也 使 得 有 些 原本 枯燥 的 话题 变 得 有 趣 。 





封面 上 的 动物 叫 多 纹 黄 鼠 (thirteen-lined ground squirrel, Spermophilus tridecemlineatus) , 
在 北美 洲 中 部 很 常见 。 鼠 如 其 名 ， 沿 着 多 纹 黄 鼠 的 背部 有 十 三 条 条 纹 ， 上 面 有 一 行 
行 的 浅 色 斑 点 。 它 的 颜色 模式 能 让 其 融入 周围 的 环境 ， 以 防 捕食 者 发 现 它 。 多 纹 黄 
鼠 是 松鼠 家 族 中 的 一 员 ， 松 鼠 家 族 中 包括 花 栗 鼠 、 地 松鼠 、 树 松鼠 、 土 拨 鼠 和 旱 猎 。 
它们 的 体型 与 东方 花 栗鼠 类 似 ， 但 比 常见 的 灰 松鼠 小 ， 平 均 长 度 大 概 有 11 英寸 (加 
上 一 个 5 ~ 6 英寸 的 尾巴 )。 


多 纹 黄 鼠 会 在 十 月 份 冬 卢 ， 并 在 三 月 末 四 月 初 苏醒 过 来 。 通 常 每 只 峰 鼠 会 在 每 年 
五 月 产 下 一 寅 7 ~ 10 只 小 鼠 。 小 鼠 会 在 四 到 五 周 大 的 时 候 离 开 地 洞 ， 并 在 六 周 的 
时 候 完 全 长 成 。 它 们 喜欢 在 长 有 短 草 且 排 水 良好 的 砂 质 开阔 地 或 肥沃 的 土壤 上 打 
洞 ， 它 们 不 喜欢 树木 党 皮 的 地 区 一 一 修剪 过 的 草坪 、 高 尔 夫 球场 和 公园 是 它们 常见 
的 栖息 地 。 

地 松鼠 会 引发 一 些 问 题 ， 比 如 挖 调 、 挖 出 种 下 的 种 子 ， 破 坏 菜园 子 。 但 它们 同样 也 


是 几 种 捕食 者 的 重要 猎物 ， 包 括 儿 、 草 原 狼 、 应 、 黄 鼠 狼 和 各 种 蛇 ， 而 且 它 们 以 很 
多 有 害 的 杂 草 、 杂 草 种 子 及 昆虫 为 食 ， 会 让 人 类 直接 受益 。 























本 书 的 项 目 及 文字 编辑 是 Rachel Wheeler。 质 量 控制 人 员 包 括 : Leanne Soylemez、 
Sarah Sherman 和 Mary Anne Weeks Mayo。 其 他 辅助 工作 由 Derek Di Matteo 和 
Brian Sawyer 完成 。John Bickelhaupt 编写 了 索引 部 分 。 
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本 书 封面 是 在 Edie Freedman 设计 的 一 系列 封面 基础 上 完成 的 ， 并 由 Ellie Volckhausen 
完成 具体 的 设计 。 封 面 的 原始 图 片 由 Lorrie LeJeune 绘制 。 封 面 布局 是 Emma Colby 
用 QuarkXPress 4.1 以 Adobe 的 ITC Garamond 字体 绘制 的 。 





David Futato 和 Melanie Wang 根据 David Futato 的 一 系列 设计 完成 了 内 部 版 面 的 
ixit. Joe Wizda 用 FrameMaker 5.5.6 为 制版 准备 了 一 些 文件 。 书 中 的 图 片 都 是 
Robert Romano 和 Jessamyn Read 用 Macromedia FreeHand 9 和 Adobe Photoshop 6 
制作 的 。 尾 页 是 Rachel Wheeler 编写 的 。 





本 书 的 在 线 版 本 是 Safari 产品 组 (John Chodacki, Becki Maisch 和 Madeleine 
Newell) 用 Erik Ray, Benn Salter, John Chodacki 和 Jeff Liggett 编写 并 维护 的 一 组 
Frame-to-XML 转换 及 清理 工具 创建 的 。 
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HTTP 权 威 指南 


HTTP 是 web 客户 端 与 服务 器 交互 文 要 和 信息 时 所 使 用 的 协议 ， 是 每 个 成 功 Web 事 务 的 幕后 推 
手 。 众 所 周知 ， 我 们 每 天 访问 公司 内 部 网 络 、 搜 索 绝 版 书籍 、 研 究 统计 信息 时 所 使 用 的 浏览 
器 的 核心 就 是 HITP。 但 HITP 的 应 用 远 不 仅仅 是 浏览 Web 内 容 。 由 于 HITP 既 简单 又 普及 ， 
很 多 其 他 网 络 应 用 程序 也 选择 了 它 ， 尤 其 是 采用 SOAP 和 XML-RPC 这 样 的 Web 服 务 








本 书 详细 解释 了 HITP 协 议 ， 包 括 它 是 如 何 工作 的 ， 如 何 用 它 来 开发 基于 Web 的 应 用 程序 。 但 本 书 并 不 
只 介绍 了 HTTP， 还 探讨 了 HITP 有 效 工作 所 依赖 的 所 有 其 他 核心 因特网 技术 。 尽 管 HITP 是 本 书 的 中 心 
内 容 ， 但 本 书 的 本 质 是 理解 Web 的 工作 原理 ， 以 及 如 何 将 这 些 知识 应 用 到 Web 编 程 和 管理 之 中 ， 主 要 涵 
盖 HITP 的 技术 运作 方式 、 产 生动 机 、 人 性 能 和 目标 以 及 一 些 相关 技术 问题 。 

本 书 是 HTTP 协议 及 相关 Web 技 术 方 面 的 权威 著作 ， 主 要 内 容 包括 : 


HTTP 方 法 、 首 部 以 及 状态 码 

优化 代理 和 缓存 的 方法 

设计 Web 机 器 人 和 殿 虫 的 策略 

Cookies、 认 证 以 及 安全 HTTP 

国际 化 及 内 容 协商 

重 定向 及 负载 平衡 策略 

本 书 由 具有 多 年 实践 经 验 的 专家 编写 ， 通 过 简洁 、 精 确 的 语言 和 大 量 翔 实 的 细节 图 解 帮助 读者 形象 地 
理解 Web 幕 后 所 发 生 的 事情 ， 详 细 说 明了 Web 上 每 条 请 求 的 实际 运行 情况 。 





























要 想 高 效 地 进行 Web 开 发 ， 所 有 Web 程 序 员 、 管 理 员 和 应 用 程序 开发 者 都 应 该 熟悉 HITP。 很 多 书籍 只 
介绍 了 Web 的 使 用 方式 ， 而 本 书 则 深入 说 明了 Web 的 工作 原理 。 
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欢迎 加 入 


图 灵 社 区 


电子 书 发 售 平台 


电子 出 版 的 时 代 已 经 来 临 ， 在 许多 出 版 界 同行 还 在 犹豫 入 笋 的 时 候 ， 图 灵 社 区 已 经 
采取 实际 行动 拥抱 这 个 出 版 业 巨 变 。 相 比 纸 质 书 ， 电 子 书 具有 许多 明显 的 优势 。 它 
不 仅 发 布 快 ， 更 新 容易 ， 而 且 尽 可 能 采用 了 彩色 图 片 〈 即 使 有 的 书 纸 质 版 是 黑白 印 
刷 的 ) 。 读 者 还 可 以 方便 地 进行 搜索 、 剪 贴 、 复 制 和 打印 。 


图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 出 版 业务 紧密 结合 ， 目 前 已 实现 作 译 者 网 上 
交 稿 、 编 辑 网 上 审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模式 ， 我 们 称 之 为 
“敏捷 出 版 ”， 它 可 以 让 读者 以 较 快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 
以 往 翻译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 捷 出 版 使 得 作 、 译 、 编 、 读 的 
交流 更 为 方便 ， 可 以 提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 的 质量 。 


开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写作 功能 ， 协 助 你 实现 自 出 版 的 梦想 。 你 可 以 联合 二 三 好 
友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 的 形式 提供 给 读者 ， 这 极 大 地 降低 了 出 
版 的 门槛 。 成 熟 的 书稿 ， 有 机 会 入 选 出 版 计划 ， 同 时 出 版 纸 质 书 。 

图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 社区 公布 。 如 果 有 意 翻 译 哪 本 
图 书 ， 欢 迎 来 社区 申请 。 只 要 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 译 者 。 当 然 ， 
要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 需要 有 坚强 的 毅力 的 。 


读者 交流 平台 
在 图 灵 社 区 ， 读 者 可 以 十 分 方便 地 写作 文章 、 提 交 勘 误 、 发 表 评论 ， 以 各 种 方式 与 


作 译 者 、 编 辑 人 员 和 其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 银子 。 欢 迎 
大 家 积极 参与 社区 开展 的 访谈 、 审 读 、 评 选 等 多 种 活动 ， 赢 取 银 子 ， 可 以 换 书 哦 ! 


